陪同口译

近年来,对于上海陪同口译(Escor…

论文翻译

如何确保论文翻译的专业性? 论…

视频翻译

为什么要翻译视频字幕翻译视频字幕使您…

翻译认证盖章

翻译认证盖章服务条款 尊敬的客户感…

网站本地化

迪朗上海翻译公司是一家专业的上海…

展会口译

展会口译服务简介:上海迪朗翻译公司是…

同声传译

迪朗(上海)翻译公司是严格按照ITC…

«
»

华为基于大型语言模型的机器翻译质量评估

  • 微信或QQ扫一扫

2024年3月21日,华为、东北大学和南京大学的研究人员深入探讨了机器翻译质量评估(QE)领域,特别关注了大型语言模型(LLM)在QE应用中的重要作用。

为了对QE方法的当前状态进行彻底且专业的理解,研究人员详尽地探索了QE领域内几乎所有具有代表性的方法。尽管此研究未引入新的信息,但论文对从事量化宽松研究的实践者和对这一领域感兴趣的学者而言,具有极高的实用价值。

研究人员将QE领域发展过程中的方法划分为三大类别:依赖手工制作功能的方法、基于深度学习的方法,以及利用LLM的方法。他们解释,在QE研究的初期,方法主要依赖于手工特征来预测翻译质量,从而催生了诸如QuEst等框架。随着深度学习技术的快速发展,QE方法开始利用神经网络进行更精细的建模,并进一步细分为基于经典深度学习方法(如deepQuest)和集成预训练语言模型(LM)(如COMET)的类别。

研究人员指出,基于LLM的方法具有达到最先进(SOTA)性能水平的潜力。最近,QE研究已聚焦于利用LLM的广泛知识基础和高级学习能力,以提高QE模型的准确性和性能,推动QE研究的进步。

在LLM的应用方面,研究人员识别了多种方法:利用LLM直接预测翻译质量分数或错误并评估其严重性;使用LLM作为基础模型,结合后期编辑数据确定需要编辑的片段;通过LLM创建带有错误注释和解释的合成数据,用于微调基于LLM的可解释QE指标,从而提供全面的错误诊断报告和QE分数(无需人工注释数据);利用LLM的概率和不确定性作为质量指标;以及使用LLM在正确的翻译中引入错误并创建噪音句子对,用于训练QE指标以区分准确和不准确的翻译。

尽管研究人员承认,基于LLM的QE方法尚未在性能上超越包含预训练LM的QE方法,但他们预测,随着研究的深入和技术的发展,基于LLM的方法有望达到最先进的性能水平。

在QE面临的挑战方面,研究人员看到了LLM在解决可解释性问题和注释数据稀缺性方面的潜力。LLM能够生成合成注释数据,这在低资源语言中尤为重要,有助于确定具体错误及其在文本中的位置。他们建议,未来的研究应更加关注利用有限元模型来增强QE的可解释性。

然而,挑战仍然存在,包括预训练LM和LLM的资源密集性,以及缺乏标准化的评估指标,这阻碍了模型性能的比较和集成。最后,研究人员还提出,未来的研究应更加注重词汇层面的QE。