Meta发布Omnilingual ASR系统:实现1600种语言的语音识别

Meta发布Omnilingual ASR系统:实现1600种语言的语音识别

爱力方

爱力方

2025年11月11日 12:25
本文共计638个字,预计阅读时长3分钟。
来源/互联网 责编/爱力方

Meta基础人工智能研究团队发布Omnilingual ASR自动语音识别系统。该系统覆盖1600种口语的转录能力。全球现存7000余种语言中,此前仅有数百种资源丰富语言获得AI支持。

image.png

1600种支持语言中包含500种从未被AI系统覆盖的语种。FAIR团队将这一系统定位为"通用转录系统"的技术路径。全球语言障碍的破解方案正在实验室里成型。

训练数据规模决定系统精度。测试数据显示,78%支持语言的字符错误率低于10。拥有10小时以上训练音频的语言中,95%达到该标准。低资源语言组别中,36%的语种在训练时长不足10小时的条件下仍突破精度阈值。

Omnilingual ASR语料库同步开放。这个包含350种弱势语言转录语音的数据集采用知识共享许可协议。开发者为特定地域需求定制语音识别模型时,获得了新的基础材料。

"自带语言"功能引入上下文学习机制。用户提供少量音频文本配对样本,系统直接从中提取特征。重训练流程和大量算力需求被绕过。技术文档指出,该方法理论上可将支持语种扩展至5400种。在资源匮乏语言场景中,识别质量尚未匹配全量训练系统,但首次为无AI服务社区提供了可操作的起点。

Apache2.0许可证下的开源发布让商业应用成为可能。模型系列涵盖3亿参数轻量版至70亿参数高精度版。所有构建均基于FAIR自研的PyTorch框架。官网演示界面已向公众开放。

demo:https://aidemos.atmeta.com/omnilingualasr/language-globe

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯