大规模预训练的提出对整个自然语言处理领域产生了较大的震动,几乎推动了所有子领域 state-of-the-art 的性能,均上升了一个档次,较多榜单已被刷榜。为什么在这些场景中没有机器翻译 ( MT ) / 自然语言生成 ( NLG ) 任务?训练神经网络过程中,通常是通过 t-1 时刻的 ground truth 来预测 t 时刻的输出,会涉及到暴露偏置 ( Exposure Bias ) 问题。在训练时有 ground truth,但在实际推断 Inference 时没有 ground truth。如何平衡训练和 Inference 两者差异性?需要提出更好的训练框架。
本次分享题目为大规模预训练模型在阿里机器翻译中的应用,主要从以下 3 个方面介绍:
1.预训练模型介绍及机器翻译的挑战 2.提出创新的 Framework,很好的融合机器翻译和预训练的模型:APT Framework 3.专门为机器翻译设计了一种创新的捕捉全局信息的网络结构:GRET
2 个工作均被 AAAI2020 接收。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢