5亿个句子数据集可以促进低资源语言的机器翻译

回译对于检测机器翻译内容,这可能会变得更为关键创业公司加速商业化属于人工智能支持的文本生成 .
回译的有用性取决于目标语言数据的广泛可用性,这可能会给传播较少的语言带来障碍。
赫尔辛基大学语言技术教授说,为了让机器翻译研究人员能够研究更现实的低资源情景 科学家先生宣布2021年3月3日,他发布了超过5亿个188种语言的翻译句子。
蒂德曼的数据集,在GitHub上提供,并不是第一次尝试通过机器翻译为语言提供公平竞争环境。例如,自2018年以来Masakhane项目一直在收集语言数据并对语言模型进行微调,特别是针对在自然语言处理. 然而,蒂德曼的项目以其规模而闻名。
在一个相关的2020年10月论文上塔图巴翻译挑战赛Tiedeman写道,他的主要目标是推动开放式翻译工具和模型的开发,使其覆盖世界语言的范围更广
有多宽?培训和测试数据包括500种语言和语言变体,以及大约3000种语言对。
据蒂德曼称,仍有工作要做。“无论如何,这不会是我要发布的最后一套反向翻译,”他说推特. “很快还会有更多的英语到其他语言…”
资料图:赫尔辛基大学图书馆