在全球超过7000种已知的人类语言中,超过95%的语言,长期以来,一直被主流的AI语音技术,所集体地、系统性地忽视。
它们的声音,存在于人类的日常交流中,却几乎不存在于数字世界里。
直到今天,Meta最新发布的Omnilingual ASR(全语言自动语音识别)系统,正试图以一种前所未有的方式,来终结这种技术上的“精英垄-断”。
这并非又一次针对主流语种的精度提升。它是一项雄心勃勃的、旨在将高精度的语音识别能力,覆盖到全球数千种小语种和濒危语种的开源计划。
其目标,是让每一个语言社区,无论其人口规模大小,都能平等地,站上AI时代的舞台中央。
Omnilingual ASR的第一个突破,在于其惊人的语言覆盖广度与精度。

在传统的语音技术,仍然在英语、中文、西班牙语等少数几个“大数据”语种上激烈内卷时,Omnilingual ASR,已经将其技术的触角,伸向了那些被数字世界遗忘的边缘角落。
测试数据显示:
-
语言覆盖: 该系统首次实现了对1600种不同语言的高精度语音识别。
-
精度表现:- 在其支持的这1600种语言中,有78%的语种,其词错率(Word Error Rate, WER)低于10%。这是一个足以进入“生产力可用”级别的精度门槛。
-
小语种能力: 即使是在那些训练数据极度稀缺的小语种中,仍有36%的语种,实现了低于10%的词错率。
这一表现,远超此前任何一个多语言的ASR系统。它第一次,让“可用的语音技术”,真正地覆盖到了非洲的部落、南美洲的原住民、东南亚的少数民族等,那些长期以来在全球数字化进程中“失声”的群体。
而比其覆盖广度更具革命性的,是其“上下文少样本学习”(In-context Few-shot Learning)的能力。
这是Omnilingual ASR的核心技术突破。
它意味着,AI可以像一个语言天才一样,快速地掌握一门全新的语言。
用户只需向系统,提供极少量的、带有标注的音频-文本对(例如,3到5句典型的句子),系统即可通过其内置的元学习(Meta-learning)机制,快速地适配这个新语种的语音特征、语法结构和发音规律。
整个过程,无需海量的数据喂养,也无需复杂的专业训练流程。
这一设计,使得该模型理论上支持的语言数量,跃升至了5400种以上——这几乎涵盖了地球上所有拥有文字记录的人类语言。
它为全球的语言多样性保护,提供了一块坚实、可靠的技术基石。
Meta并未将这项强大的技术,封闭在自己的实验室或商业产品中。
他们选择了完全开源模型、代码和相关的工具链。
更重要的是,他们联合了全球数十个致力于语言保护的非政府组织、大学的研究机构,以及各个语言的本土社区,共同进行语音数据的采集和标注。
这种“社区共建”的模式,确保了所采集到的数据,在发音、语调乃至文化语境上,都能最大程度地,还原其真实性和多样性。
在巴布亚新几内亚,当地的部落居民,正在使用这个系统,来录制和转写部落长辈的口述历史。
在喜马拉雅山区,年迈的僧侣们,也开始将那些世代口传心授的经文,进行语音的数字化保存。
在这些场景中,AI不再是一个来自外部的、强势的“闯入者”,而是一个与本地文化共生的“伙伴”与“守护者”。

爱力方的分析认为,Omnilingual ASR的发布,其意义已远远超越了技术指标本身。
它标志着AI的发展范式,正在经历一次深刻的、从“服务主流”向“赋能边缘”,从“技术中心主义”向“文化包容主义”的价值转向。
当一个使用着全世界只有几千人母语的孩童,也能通过自己的声音,与广阔的数字世界进行无障碍的对话时,技术,才算真正地,实现了其普惠的终极价值。
Meta的此番举动,不仅巩固了其在多模态AI领域的领导地位,更以一种极具魄力的方式,重新定义了顶级科技公司的社会责任。
真正的创新,不仅仅是创造更强大的工具,更是用技术,去确保那些最沉默、最微弱的声音,也能够被世界清晰地听见。
在这场旨在消除全球语言鸿沟的漫长进程中,Omnilingual A-SR,或许正是那个让整个世界,能够真正开始“众声喧哗”的、最重要的开端。