论文分享《Multi-agent Learning for Neural Machine Translation》。
在机器翻译任务中,我们经常会遇到这样的情况,如表1 中的例子所示,L2R(从左到右解码的智能体,本文中智能体指翻译模型)所产生的译文,前半段质量较好,而后半段,错误逐渐增多。这是因为模型在翻译的过程中,每个时刻的输入是上个时刻的输出,一旦某个时刻发生错误,就会不断往右传递,导致翻译质量下降。反之亦然。
首先,一个比较直接的想法是,能否让L2R和R2L智能体(从右到左解码)一起训练,这样在翻译句子后半段的时候L2R能够得到R2L的指导,同理前半段R2L可以得到L2R的指导。其次,如果增加更多的模型是否可以进一步提升效果?同时,怎么设计多智能体之间的学习策略?智能体是应该更关注多样性还是单智能体性能?这些都是需要解决的问题。
在此背景下,百度翻译团队近期提出业内首个神经网络机器翻译多智能体联合学习模型(MAL),显著提升了单智能体的学习能力,在多个机器翻译测试集合上刷新了当前最好结果(SOTA)。相比于传统的神经网络翻译模型,MAL具有如下创新点:
(1)提出了一种适应多智能体联合学习的训练框架,通过将多智能体之间的多对多学习问题转化为一对多学习问题,能够高效支持多个智能体联合学习。 (2)利用知识蒸馏(Knowledge Distillation)和实时译文评估等策略,确保单个智能体能从其他智能体中学习到高质量的模型知识。 (3)模型在多个公开测试集上取得了最佳或者接近最佳的效果,并在中英大数据上取得显著提升,直接应用于百度翻译线上产品。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢