大规模预训练模型在阿里机器翻译中的应用

大规模预训练的提出对整个自然语言处理领域产生了较大的震动，几乎推动了所有子领域 state-of-the-art 的性能，均上升了一个档次，较多榜单已被刷榜。为什么在这些场景中没有机器翻译 ( MT ) / 自然语言生成 ( NLG ) 任务？训练神经网络过程中，通常是通过 t-1 时刻的 ground truth 来预测 t 时刻的输出，会涉及到暴露偏置 ( Exposure Bias ) 问题。在训练时有 ground truth，但在实际推断 Inference 时没有 ground truth。如何平衡训练和 Inference 两者差异性？需要提出更好的训练框架。

本次分享题目为大规模预训练模型在阿里机器翻译中的应用，主要从以下 3 个方面介绍：

1.预训练模型介绍及机器翻译的挑战 2.提出创新的 Framework，很好的融合机器翻译和预训练的模型：APT Framework 3.专门为机器翻译设计了一种创新的捕捉全局信息的网络结构：GRET

2 个工作均被 AAAI2020 接收。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

大规模预训练模型在阿里机器翻译中的应用

评论列表

评论