新闻中心
News Center
2025年11月11日消息,Meta AI FAIR团队发布了其在自动语音识别(ASR)领域的最新成果:Omnilingual ASR。这是一个模型套件,能为超过1600种语言提供自动语音识别能力,其规模和质量都达到了新的水平。该框架被设计为社区驱动,世界各地的人们只需提供少量自己的样本,就能将Omnilingual ASR扩展到新的语言。

同时开源的,还有一系列相关:Omnilingual ASR Corpus:一个包含350种服务欠缺语言的转录语音的大型数据集;Omnilingual wav2vec 2.0:一个扩展到70亿参数的、大规模多语言语音表征模型;语言探索Demo:一个可供人们探索模型所覆盖语言的演示。
目前,大多数ASR系统都集中在互联网上资源丰富的一小部分语言上,这加剧了低资源语言使用者面临的数字鸿沟。Meta FAIR团队推出的Omnilingual ASR,旨在通过一个通用转录系统,让高质量的语音转文本技术能够惠及代表性最不足的语言社区。其最终目标是打破语言障碍,实现跨语言和文化背景的交流。
尽管ASR技术近年来在许多高资源语言上已接近完美,但扩大语言覆盖范围一直是一项资源密集型任务,现有AI架构对数据的需求过高,难以实现通用扩展。Omnilingual ASR通过引入两种架构变体来解决这一研究瓶颈。首先,团队首次将其wav2vec 2.0语音编码器扩展到70亿参数,从原始、未转录的语音数据中生成了丰富的、大规模多语言语义表征。接着,团队构建了两种解码器变体,将这些表征映射到字符序列:1.一种依赖传统的连接主义时间分类(CTC)目标。2.另一种利用了在LLM中常见的传统Transformer解码器。这种被称为LLM-ASR的方法,在ASR性能上实现了阶段性提升,尤其是在长尾语言上。结果显示,其7B-LLM-ASR系统在超过1600种语言上达到了SOTA性能,其中78%的语言字符错误率(CER)低于10。
除了扩展到1600多种语言外,Omnilingual ASR还改变了引入新语言的范式。在大多数现有系统中,添加新语言需要专家驱动的微调。而Omnilingual ASR引入了首个能够仅凭少量上下文示例就扩展到全新语言的大规模ASR框架。这得益于其受LLM启发的系统,该系统从大语言模型领域引入了上下文学习能力。在实践中,这意味着一个使用不支持语言的用户,只需提供少数几个成对的音频-文本样本,就能获得可用的转录质量——无需大规模训练数据、专业知识或高端计算资源。