摘要:以往的研究表明,利用预先训练的语言模型(LM)初始化神经机器翻译(NMT)模型可以加快模型训练并提高模型性能。在这项工作中,我们发现了一个关键的副作用,预训练的NMT,这是由于不一致的训练目标之间的LM为基础的预训练和NMT。由于LM目标学习重构少数源令牌并复制大部分源令牌,因此预训练初始化会影响NMT模型的复制行为。我们通过引入一个称为复制率的指标对复制行为进行了定量分析,实证结果表明,基于预训练的NMT模型比标准模型具有更大的复制率。针对这一问题,我们提出了一种简单有效的方法复制惩罚来控制解码过程中的复制行为。对域内和域外基准测试的大量实验表明,复制惩罚方法通过控制基于预训练的NMT模型的复制行为,持续地提高了翻译性能。
源代码在https://github.com/SunbowLiu/CopyingPenalty.
详情请参阅原文。
链接:https://arxiv.org/abs/2107.08212
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢