神经网络翻译(NMT)因数据饥饿而被诟病 – NMT引擎不仅需要大量数据,还需要干净,高质量的数据。对于所谓的低资源语言来说,这是一个问题,因为很少有培训数据来源。
对于社交媒体巨头Facebook来说,这个问题不是一个抽象的问题。该社交网络在2017年突破了20亿用户标记,该平台每天执行45亿次翻译。
这些数十亿翻译中的一部分用于低资源语言,例如越南语翻译,土耳其语翻译和菲律宾语翻译,这是菲律宾的主要方言,菲律宾是全球社交媒体之都,拥有超过4700万Facebook用户。
所以Facebook正在为此问题投入一些现金。 Facebook研究为学术界开辟了一项研究补助金,以解决资源匮乏的NMT问题。
“在没有大量平行语料库的情况下,最大的挑战之一是实现出色的翻译准确度,”Facebook的公告宣读。 “对于使用具有大量参数的模型的神经机器翻译(NMT)尤其如此。”
因此,Facebook研究将资助多达四项研究提案,从2018年6月开始,为期一年,赠款金额从20,000美元到40,000美元不等,可以选择在评估后进一步提供资金。 Facebook研究开始提交截至2018年4月18日的补助金。成功的获奖翻译公司将在2018年5月前获得通知。
研究提案需要专门解决低资源NMT问题。正如Facebook所说,主题包括但不限于:
低资源语言对的无监督NMT
可比较的语料库挖掘,再次用于低资源配对,以及
低资源NMT的单语资源
或者上述任何一种的组合。
Facebook研究要求申请人提交拟议项目的摘要以及季度里程碑的时间表,预算草案描述,当然还有参与者的简历。
Facebook研究也将在2018年9月召开研讨会,这是在2018年11月六个月之前的几个月,届时将评估研究进展,“确定第二轮融资的机会”。