苹果推出性别包容性语言翻译解决方案

March 19, 2025 分类:公司新闻 作者:admin

近日,苹果公司与南加州大学(USC)合作发表了一篇文章,探讨其采用的机器学习方法,旨在为iOS18操作系统用户提供更多翻译中的性别选项。

在iOS18中,用户可以在原生翻译应用中选择翻译词汇的替代性别建议。这一功能解决了世界上229种已知语言中有84种使用基于性别的系统所带来的挑战。

令人惊讶的是,英语也属于基于性别的类别,因为它分配了阳性或阴性的单数代词。相比之下,所有罗曼语系语言(包括超过5亿西班牙语使用者以及许多其他流行语言,如俄语)都需要性别一致,这要求翻译系统解决语言中的性别分配问题。

新文章通过观察将句子“秘书对老板很生气”翻译成西班牙语的所有可能情况来说明了这一点。简单的翻译对于较长的文本来说远远不够,因为较长的文本可能从一开始就确定了性别(“他”、“她”等),并且不会再次提及。因此,翻译必须记住文本中参与者的分配性别。

这对于处理离散片段翻译的基于标记的方法来说可能具有挑战性,因为它们可能会丢失性别上下文。此外,提供替代性别翻译的系统不能随意进行,而必须确保所有语言部分都与修改后的性别名词保持一致。

苹果和USC的方法有效地将单标记翻译转换为用户控制的矩阵。这为在苹果翻译或提供翻译服务的类似门户中,将用户选择纳入未来模型迭代提供了可能性。

苹果和USC开发的模型在GATE和MT-GenEval测试集上进行了评估。GATE包含最多具有3个性别模糊实体的源句子,而MT-GenEval包含无法推断性别的材料,有助于理解何时不提供替代性别选项。

为了训练系统,研究人员依靠了一种创新的自动数据增强算法,这与上述人工注释的测试集不同。为苹果策划做出贡献的数据集包括Europarl、WikiTitles和WikiMatrix。语料库被分为Tag G(包含12,000个句子),涵盖所有具有性别模糊注释的实体的关键词短语,以及G-Trans(包含50,000个句子),其中包含性别模糊实体和性别对齐。

作者利用了2019年以前的方法来为模型提供生成性别对齐的能力,使用交叉熵损失和额外的对齐损失进行训练。对于数据增强程序,他们避免了传统的基于规则的方法,而倾向于以数据为中心的方法,在G-Tag数据集上对预训练的BERT语言模型进行微调。

在检测到性别模糊实体的情况下,苹果和USC探索了两种方法:微调预训练的语言模型和使用大型语言模型(LLM)。对于第一种方法,他们在从G-Trans数据集中提取的双语文本上微调了一个预训练的翻译模型。对于LLM方法,他们设计了一种策略,该策略利用LLM作为编辑器,重写提供的翻译以提供性别分配。

将这两种方法的结果连接起来后,该模型随后被微调以将源标记分类为对齐或未对齐。该项目使用的实体模糊检测器是通过微调Facebook的xlm-roberta-large模型开发的,使用了五种语言对的组合Tag G。

在上述两种方法的第一种中,M2M 1.2B模型与来自G-Trans数据集的双语文本一起在Fairseq上进行了训练,并使用Wiktionary提供了性别变化。对于LLM方法,作者使用了GPT-3.5-turbo。对于性别结构对齐,他们再次使用了xlm-roberta-large,这次是从G-Trans中提取的性别对齐。

评估替代方案的指标包括结构(精确度和召回率)和对齐精确度。后者衡量输出性别结构与已知正确源身份匹配的百分比,并使用MT-GenEval方法论的δ-BLEU方法。

文章总结了研究结果,强调虽然原始模型无法生成替代方案,并显示出对阳性形式生成的显著偏见,但这种偏见在监督基线中大大减少。使用增强数据训练的模型进一步减少了这种偏见,并在替代指标、对齐精确度和δ-BLEU方面取得了最佳性能。

作者总结指出,模型的成功应放在自然语言处理(NLP)在翻译方法中合理化性别分配的更广泛背景下考虑,并指出这仍然是一个未解决的问题。虽然研究人员承认所取得的结果并未完全实现实体级别和/或性别消歧的性别中立翻译目标,但他们相信这项工作是未来探索机器翻译最具挑战性领域之一的“有力工具”。

  • 微信或QQ扫一扫
继续阅读