Meta在直接的语音到语音翻译上加倍

2022年6月13日,Meta(fka Facebook)发布了一个邮递关于“直接语音到语音翻译(S2ST)方法”直接S2ST公司消除了口语转换中的文本生成步骤,从而包括没有书写系统的语言。
通常,S2ST需要语音识别,然后进行文本到文本的翻译,最后,将文本转换回语音。
Meta的多语言无文本S2ST方法在一种系统培训中使用系统化处理的音频样本,该公司称之为“挖掘语音到语音数据”它使用了大量的语音样本,包括他们自己的Meta-AI-FAIR-S2ST和多语言 民声音频数据集
这家社交媒体巨头将该方法描述为第一个“基于真实世界的开源音频数据训练”的S2ST框架现在正在使用宾夕法尼亚大学的费舍尔西班牙语英语语音翻译语料库,一个包含139000个西班牙语电话对话句子的音频数据库。
参与Meta项目和类似项目的科学家声称,到目前为止,S2ST系统还没有被成功地训练过鈥減公开提供多种语言的真实世界数据。鈥
这一进步的影响是多方面的,包括商务或休闲活动平台上的语言中性连接,同时比许多人预期的要快得多地改变口译领域。
元研究者希望他们新颖的语音到语音翻译研究能够在翻译质量、语言转换速度和改善用户交流方面有所不同。
在一种秘密的应用程序众包中,它免费提供了博客上所有相关的论文和代码,并声明鈥渉ope将使未来的直接语音到语音翻译在整个研究领域取得进展。鈥
无论是在孤独的开发人员、技术企业家还是学术研究人员手中,这种性质的科学突破都有可能缩短“元宇宙”内外实现多语言实现的路径。