Teacher Forcing 是 Seq2Seq 模型的经典训练方式,而 Exposure Bias则是 Teacher Forcing 的经典缺陷,这对于搞文本生成的同学来说应该是耳熟能详的事实了。这篇文章 Seq2Seq中Exposure Bias现象的浅析与对策,初步地分析过 Exposure Bias 问题。
本文则介绍 Google 新提出的一种名为“TeaForN”的缓解 Exposure Bias 现象的方案,来自论文 TeaForN: Teacher-Forcing with N-grams,它通过嵌套迭代的方式,让模型能提前预估到后 N 个 token(而不仅仅是当前要预测的 token),其处理思路上颇有可圈可点之处,值得我们学习。
论文链接:https://arxiv.org/abs/2010.03494
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢