Large Language Diffusion Models - 智源社区论文

简介

自回归模型（ARMs）被广泛视为大型语言模型（LLMs）的基石。我们对此观点提出挑战，介绍了从头开始训练的扩散模型LLaDA，该模型基于预训练和监督微调（SFT）范式。LLaDA通过前向数据掩码过程和反向过程来建模分布，这些过程由一个标准的Transformer参数化以预测被掩码的标记。通过优化似然边界，它为概率推理提供了一种原则性的生成方法。在广泛的基准测试中，LLaDA展示了强大的可扩展性，超过了我们自行构建的ARM基线模型。值得注意的是，LLaDA 8B在上下文学习中与强大的LLM如LLaMA3 8B具有竞争力，并且在经过SFT后，在多轮对话等案例研究中表现出令人印象深刻的任务遵循能力。此外，LLaDA解决了反转诅咒问题，在反转诗歌完成任务中超越了GPT-4o。我们的研究结果确立了扩散模型作为ARMS的可行且有前途的替代方案，挑战了上述关键LLM能力固有地与ARMS相关的假设。项目页面和代码：https://ml-gsai.github.io/LLaDA-demo/。
图表
解决问题

该论文试图挑战自回归模型（ARMs）作为大型语言模型（LLMs）核心地位的假设，并验证扩散模型是否能成为一种有效的替代方案。这是一个新的尝试，因为它首次在大规模语言模型中引入了基于扩散模型的方法。
关键思路

论文的关键思路是引入LLaDA，这是一种从头开始训练的扩散模型，通过前向数据遮蔽过程和反向过程来建模分布，并使用Transformer预测被遮蔽的token。与传统的自回归模型不同，LLaDA优化了一个似然边界，提供了一种有原则的概率推断方法。这种方法不仅打破了对自回归模型的依赖，还展示了在生成任务中的强大性能。
其它亮点

LLaDA在多个基准测试中表现出色，尤其是在指令跟随和多轮对话等任务中，甚至在某些方面超越了现有的强大力量如GPT-4。此外，LLaDA解决了所谓的“反转诅咒”，在诗歌反转完成任务中表现尤为突出。论文提供了项目页面和开源代码，便于其他研究者复现结果并进一步探索。未来的研究可以深入探讨扩散模型在更多复杂任务中的应用。
相关研究

最近在这个领域中，相关研究包括：1.《Training Compute-Optimal Large Language Models》探讨了如何在计算资源有限的情况下训练大型语言模型；2.《Generalist Instruction-Following Language Models》研究了通用指令跟随语言模型的设计；3.《Diffusion-LM Improves Controllable Text Generation》提出了利用扩散模型改进可控文本生成的方法。这些研究共同推动了语言模型架构和生成能力的进步。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论