TikTok母公司ByteDance开源神经语音翻译工具包

中国科技公司 ByteDance 以其简短的视频共享应用程序TikTok而闻名的 ,已经发布了用于神经语音翻译的开源工具包。
根据 于2020年12月 一篇论文 预印本服务器 发表的 arXiv.org ,“ NeurST旨在促进NLP研究人员的语音翻译研究,并提供语音翻译基准的完整设置,包括特征提取,数据预处理,分布式培训和评估。 。”
当然,最终目标之一是将工具包的用途扩展到“高级语音翻译研究和产品”。 NeurST当前 公开 可用 在GitHub上 。
三位作者赵成奇,王明轩和李磊(作者均为ByteDance)的最新著作包括 PRUNE-TUNE (一种用于机器翻译(MT)领域自适应的新领域自适应方法)和 多分辨率(MR)Doc2Doc ,研究人员用来训练用于文档级翻译的神经序列到序列MT模型。
正如论文所解释的那样,传统“级联”语音翻译系统的缺点之一是转录错误(通常由自动语音识别提供支持)会导致翻译错误。 另一方面,端到端语音翻译绕过了转录步骤并产生了更少的延迟时间。
作者指出,语音翻译研究适用于不同的数据集。 因此,他们的目标是为该领域建立可再现和可靠的基准。 他们说,NeurST的“用于预处理音频数据集的简单配方”将使开发人员腾出更多精力来进行语音翻译。
使用公开的语音翻译数据(即Augmented LibriSpeech和MuST-C语料库)对8种欧洲语言对的几种基准语音翻译任务进行了NeurST的测试。
总体而言,在大多数语言中,NeurST都优于现有的Espnet-ST和fairseq-ST。 作者希望该工具包(旨在对NLP研究人员友好)将用于在将来的研究中建立基准。