- 简介虽然扩散模型在生成高质量图像方面表现出色,但之前的研究报告显示,扩散模型与自回归(AR)方法在语言建模方面存在显著的性能差距。在本文中,我们展示了简单的掩码离散扩散比之前认为的更具性能。我们采用了有效的训练方法,提高了掩码扩散模型的性能,并推导出了一个简化的 Rao-Blackwellized 目标,从而获得了额外的改进。我们的目标形式简单--它是经典的掩码语言建模损失的混合--并且可以用于训练仅编码器的语言模型,这些模型具有高效的采样器,包括可以半自回归地生成任意长度文本的模型,就像传统的语言模型一样。在语言建模基准测试中,一系列使用现代工程实践训练的掩码扩散模型实现了扩散模型的新最优性能,并接近自回归困惑度。我们在https://github.com/kuleshov-group/mdlm上发布了我们的代码。
- 图表
- 解决问题论文旨在提高蒸馏模型在语言建模中的性能,以缩小其与自回归模型之间的性能差距。
- 关键思路论文使用简单的掩蔽离散扩散模型,提出了一种有效的训练方法,并导出了简化的 Rao-Blackwellized 目标,进一步提高了模型性能。该目标具有简单的形式,可以用于训练仅包含编码器的语言模型,其中包括可以生成任意长度的文本的有效采样器。
- 其它亮点论文提出的方法在语言建模基准测试中取得了新的最优结果,并接近自回归模型的困惑度。研究人员已经开源了他们的代码。
- 在最近的相关研究中,一些学者已经探索了蒸馏模型在语言建模中的应用,例如《Distilling the Knowledge in a Neural Network》。
沙发等你来抢
去评论
评论
沙发等你来抢