Scaling Diffusion Language Models via Adaptation from Autoregressive Models

2024年10月23日
  • 简介
    扩散语言模型(DLMs)作为一种新的文本生成建模范式,展现出解决自回归(AR)模型局限性的潜力。然而,与AR模型相比,当前的DLMs研究规模较小,并且在语言建模基准上缺乏公平的比较。此外,大规模从头训练扩散模型仍然具有挑战性。鉴于开源AR语言模型的广泛使用,我们提出将这些模型改编为文本扩散模型。我们展示了AR模型和扩散模型目标之间的联系,并介绍了一种简单的持续预训练方法来训练扩散模型。通过在语言建模、推理和常识基准上的系统评估,我们证明可以将参数量从1.27亿到70亿(GPT2和LLaMA)的AR模型转换为扩散模型DiffuGPT和DiffuLLaMA,训练所需的token数量少于2000亿。我们的实验结果表明,这些模型优于早期的DLMs,并且与它们的AR对应模型具有竞争力。我们发布了一系列DLMs(参数量分别为1.27亿、3.55亿和70亿),这些模型能够生成流畅的文本,进行上下文学习,无需重新排序提示即可填充中间部分,并遵循指令。相关代码和模型已发布在 [GitHub](https://github.com/HKUNLP/DiffuLLaMA) 上。
  • 图表
  • 解决问题
    该论文旨在解决现有扩散语言模型(DLMs)与自回归(AR)模型相比规模较小且缺乏公平基准测试的问题,并探讨如何通过适应现有的AR模型来构建更大规模的DLMs。
  • 关键思路
    论文的关键思路是通过建立AR模型与扩散模型之间的联系,提出了一种持续预训练的方法,将现有的大规模AR模型(如GPT2和LLaMA)转换为扩散模型(命名为DiffuGPT和DiffuLLaMA)。这种方法不仅减少了从头开始训练DLMs的难度,还使得这些模型在多项任务上表现出色,甚至接近其AR对应模型的性能。
  • 其它亮点
    论文通过系统性的评估展示了这些模型在语言建模、推理和常识任务上的表现,证明了它们能够生成流畅的文本、进行上下文学习、填补中间内容而无需重新排序提示,并且能够遵循指令。此外,研究团队还开源了多个不同参数规模的DLMs,包括127M、355M和7B参数的模型,方便其他研究者进一步探索和改进。
  • 相关研究
    近年来,扩散模型在图像生成等领域取得了显著进展,但其在自然语言处理中的应用相对较少。一些相关的研究包括《Improved Denoising Diffusion Probabilistic Models》和《Denoising Diffusion Probabilistic Models》等,这些研究主要集中在提高扩散模型的效率和效果。本论文则是在这一基础上,首次系统地探讨了如何将扩散模型应用于大规模语言生成任务。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论