腾讯将ChatGPT翻译质量与DeepL和谷歌翻译相提并论

ChatGPT翻译质量
自OpenAI于2022年11月推出ChatGPT以来,头条新闻一直在问,一系列领域的员工是否应该担心被先进的AI聊天机器人取代。现在,中国科技公司腾讯(Tencent)于2023年1月发表的一篇论文代表语言行业提出了一个问题:ChatGPT是一个好的翻译吗?
我们可以说,腾讯团队通过审查一组有限的数据来回答这个问题。该团队表示,“从ChatGPT获取翻译结果非常耗时,因为它只能手动交互,无法对大批量进行响应。因此,我们从每组中随机抽取50个句子进行评估。”因此,让我们看看该团队通过评估这50个句子收集了哪些见解。
根据这篇论文,ChatGPT在高资源的欧洲语言上与商业机器翻译(MT)产品(如谷歌翻译、DeepL和腾讯自己的系统)表现“有竞争力”,但在低资源或不相关的语言对上却举步维艰。
换言之,Twitter上的一位观察者调侃道,“潜在的替代标题/解释:‘ChatGPT是在公共可用的平行语料库上接受翻译训练的。’”
在这项“初步研究”中,腾讯AI实验室的研究人员焦文祥、王文轩、黄仁泽、王兴和涂兆鹏评估了翻译提示、多语言翻译和翻译稳健性。
Meta力矩
实验从一个“元”时刻开始,团队向ChatGPT自己询问提示或模板,以触发其MT能力。随后,在剩下的研究中使用了产生最佳中英文翻译的提示——总共12个方向,分别是中文、英文、德文和罗马尼亚文。
研究人员很好奇ChatGPT的表现会因语言对的不同而有所不同。虽然ChatGPT在英语-德语翻译方面与Google Translate和DeepL表现“有竞争力”,但其英语-罗马尼亚语翻译的BLEU分数比Google Translate低46.4%。
该团队将糟糕的表现归因于英语和罗马尼亚语单语数据的显著差异,这“限制了罗马尼亚语的语言建模能力”
另一方面,罗马尼亚语-英语翻译“可以从英语强大的语言建模能力中受益,从而可以在一定程度上弥补并行数据的资源缺口”,BLEU分数仅比谷歌翻译低10.3%。
超越家庭
作者写道,除了资源差异之外,语言族之间的翻译被认为比语言族内部的翻译更困难。ChatGPT的德语-英语和中文-英语翻译输出质量的差异似乎证明了这一点。
研究人员发现,对于来自不同家庭的低资源语言对(如罗马尼亚语-汉语),ChatGPT和商用MT系统之间的性能差距甚至更大。
他们写道:“由于ChatGPT在一个模型中处理不同的任务,低资源翻译任务不仅与高资源翻译任务竞争,还与其他NLP任务竞争模型容量,这解释了它们的性能差。”。
他们只抽取了50个句子,因为他们不知道如何自动化ChatGPT翻译-OferRahat(@OferRahat)2023年1月25日
Google Translate和DeepL在三个测试集中的两个测试集上的翻译稳健性都超过了ChatGPT:WMT19 Bio(Medline摘要)和WMT20 Rob2(Reddit评论),这可能要归功于它们随着特定领域和嘈杂句子的出现而不断改进。
然而,ChatGPT在WMT20 Rob3测试集上“显著”超过了谷歌翻译和DeepL,该测试集包含一个众包语音识别语料库。作者认为,这一发现表明ChatGPT“比这些商业翻译系统能够生成更多的自然口语”,暗示了未来可能的研究领域。