
巴别鱼——经典科幻小说《银河系漫游指南》中设想的翻译动物——的梦想可能更接近现实。科技巨头 Meta 的研究人员创建了一个机器学习系统,可以几乎立即将 101 种语言的语音翻译成语音合成器以 36 种目标语言中的任意一种说出的单词。
大规模多语言和多模式机器翻译 (SEAMLESSM4T) 系统还可以将语音翻译为文本、文本翻译为语音以及文本翻译为文本。该结果于 1 月 1 日发表在《自然》杂志上。
Meta 总部位于加利福尼亚州门洛帕克,运营 Facebook、WhatsApp 和 Instagram 等社交媒体网站。Meta 表示,在成功发布 SEAMLESSM4T 的成功发布后,它正在将 SEAMLESSM4T 开源给其他想要在其基础上进行开发的研究人员。 LLaMA面向全球开发人员的大型语言模型。
数据稀缺
机器翻译在过去几十年中取得了巨大进步,这在很大程度上要归功于在大型数据集上训练的神经网络的引入。主要语言(尤其是英语)的训练数据比比皆是,但许多其他语言的训练数据却非常稀缺。这种不平等限制了机器可以训练翻译的语言范围。 “这会影响互联网上不常出现的任何语言,”纽约州伊萨卡康奈尔大学的计算机科学家艾莉森·科内克 (Allison Koenecke) 在该论文随附的《新闻与观点》文章中写道。机器人作家:语言生成人工智能的兴起和风险
Meta 团队以之前的语音到语音翻译2以及名为No Language Left Behind 3的项目为基础,该项目旨在为大约 200 种语言提供文本到文本翻译。根据经验,Meta 和其他地方的研究人员发现,即使在训练数据有限的翻译语言中,使翻译系统成为多语言也可以提高其性能;为什么会发生这种情况尚不清楚。
该团队从互联网和联合国档案等其他来源收集了数百万小时的演讲音频文件,以及人工生成的演讲翻译。作者还收集了其中一些演讲的文字记录。
该团队还使用可靠的数据来训练模型以识别两个匹配的内容。这使得研究人员能够将大约 50 万小时的音频与文本配对,并自动将一种语言的每个片段与其他语言的对应片段进行匹配。