- 简介自回归模型(ARMs)被广泛视为大型语言模型(LLMs)的基石。我们对此观点提出挑战,介绍了从头开始训练的扩散模型LLaDA,该模型基于预训练和监督微调(SFT)范式。LLaDA通过前向数据掩码过程和反向过程来建模分布,这些过程由一个标准的Transformer参数化以预测被掩码的标记。通过优化似然边界,它为概率推理提供了一种原则性的生成方法。在广泛的基准测试中,LLaDA展示了强大的可扩展性,超过了我们自行构建的ARM基线模型。值得注意的是,LLaDA 8B在上下文学习中与强大的LLM如LLaMA3 8B具有竞争力,并且在经过SFT后,在多轮对话等案例研究中表现出令人印象深刻的任务遵循能力。此外,LLaDA解决了反转诅咒问题,在反转诗歌完成任务中超越了GPT-4o。我们的研究结果确立了扩散模型作为ARMS的可行且有前途的替代方案,挑战了上述关键LLM能力固有地与ARMS相关的假设。项目页面和代码:https://ml-gsai.github.io/LLaDA-demo/。
- 图表
- 解决问题该论文试图挑战自回归模型(ARMs)作为大型语言模型(LLMs)核心地位的假设,并验证扩散模型是否能成为一种有效的替代方案。这是一个新的尝试,因为它首次在大规模语言模型中引入了基于扩散模型的方法。
- 关键思路论文的关键思路是引入LLaDA,这是一种从头开始训练的扩散模型,通过前向数据遮蔽过程和反向过程来建模分布,并使用Transformer预测被遮蔽的token。与传统的自回归模型不同,LLaDA优化了一个似然边界,提供了一种有原则的概率推断方法。这种方法不仅打破了对自回归模型的依赖,还展示了在生成任务中的强大性能。
- 其它亮点LLaDA在多个基准测试中表现出色,尤其是在指令跟随和多轮对话等任务中,甚至在某些方面超越了现有的强大力量如GPT-4。此外,LLaDA解决了所谓的“反转诅咒”,在诗歌反转完成任务中表现尤为突出。论文提供了项目页面和开源代码,便于其他研究者复现结果并进一步探索。未来的研究可以深入探讨扩散模型在更多复杂任务中的应用。
- 最近在这个领域中,相关研究包括:1.《Training Compute-Optimal Large Language Models》探讨了如何在计算资源有限的情况下训练大型语言模型;2.《Generalist Instruction-Following Language Models》研究了通用指令跟随语言模型的设计;3.《Diffusion-LM Improves Controllable Text Generation》提出了利用扩散模型改进可控文本生成的方法。这些研究共同推动了语言模型架构和生成能力的进步。
沙发等你来抢
去评论
评论
沙发等你来抢