- 简介近三十年来,基于$n$-gram假设的语言模型一直处于最先进的状态。其成功的关键在于应用了各种平滑技术来对抗过拟合。然而,当神经语言模型取代$n$-gram模型成为最佳表现者时,$n$-gram平滑技术变得不那么相关。事实上,可以毫不夸张地说,对$n$-gram平滑技术的探究已经变得不再活跃。本文重新探讨了在神经语言模型时代经典的$n$-gram平滑技术所扮演的角色。首先,我们建立了标签平滑和加$\lambda$平滑之间的形式等价关系,标签平滑是神经语言模型中常用的正则化技术。其次,我们推导了一个通用的框架,可以将\emph{任何} $n$-gram平滑技术转化为与神经语言模型兼容的正则化器。我们的实验结果表明,我们的新型正则化器在语言建模和机器翻译方面与标签平滑技术相当甚至有时表现更好。
- 图表
- 解决问题论文试图重新探讨在神经语言模型时代中,经典的n-gram平滑技术仍然能够发挥什么作用。
- 关键思路论文提出了一种通用的方法,将任何n-gram平滑技术转化为神经语言模型中的正则化器,通过与标签平滑的等价性证明了该方法的有效性。
- 其它亮点论文证明了经典的n-gram平滑技术在神经语言模型中仍然有用,提出了一种通用的转化方法,并在语言建模和机器翻译任务中进行了实验验证。实验结果表明,该方法的表现与标签平滑相当甚至更好,并且可以应用于各种n-gram平滑技术。论文开源了代码。
- 最近的相关研究包括《A Systematic Comparison of Smoothing Techniques for Sentence-Level BLEU》、《Neural Machine Translation of Rare Words with Subword Units》等。
沙发等你来抢
去评论
评论
沙发等你来抢