Scaling Behavior of Discrete Diffusion Language Models

2025年12月11日
  • 简介
    现代大语言模型的预训练消耗巨大的计算资源和海量训练数据,因此不同模型的扩展行为(即缩放定律)成为关键的区别因素。离散扩散语言模型(DLMs)被提出作为自回归语言模型(ALMs)的一种替代方案,但其扩展行为尚未得到充分研究;此前的研究表明,DLMs需要更多的数据和计算资源才能达到与ALMs相当的性能。 我们通过在掩码扩散与均匀扩散之间进行平滑插值,系统地研究了不同噪声类型下DLMs的扩展行为,同时密切关注批量大小和学习率等关键超参数的影响。实验结果表明,DLMs的扩展行为强烈依赖于噪声类型,且与ALMs存在显著差异。在计算量受限的扩展模式下,尽管所有类型的噪声最终都能收敛到相近的损失值,但我们发现,与掩码扩散相比,均匀扩散在高效计算训练中需要更多参数但更少的数据,因此在数据受限的场景下具有良好的应用前景。我们将均匀扩散模型扩展至拥有100亿参数、训练量达$10^{22}$ FLOPs的规模,验证了所预测的扩展行为,这也使其成为迄今为止公开报道中规模最大的均匀扩散模型。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在研究离散扩散语言模型(DLMs)在不同噪声类型下的扩展行为(scaling behavior),特别是与自回归语言模型(ALMs)相比,DLMs是否能在计算和数据效率上实现可预测且优越的性能。此前研究表明DLMs需要更多数据和算力才能达到ALMs的性能,因此探索其在不同训练条件下的缩放规律是一个重要且较新的问题。
  • 关键思路
    通过在掩码扩散和均匀扩散之间进行平滑插值,系统地分析噪声类型对DLM扩展行为的影响,并重点关注批量大小和学习率等关键超参数的作用。发现均匀扩散在数据受限场景下更具优势——它使用更少的数据、更大的模型即可高效训练,而掩码扩散则偏好更多数据。这一发现揭示了DLMs与ALMs截然不同的缩放路径。
  • 其它亮点
    实验设计覆盖多种噪声类型与大规模训练设置,最大模型达100亿参数、训练消耗达10^22 FLOPs,是目前公开最大的均匀扩散语言模型。研究强调了compute-bound与data-bound两种设定下最优配置的差异。虽然未明确提及开源代码,但其大规模验证为后续研究提供了坚实基础。值得深入的方向包括:将该缩放规律推广到多模态任务、结合稀疏训练提升效率、探索更优的噪声调度策略。
  • 相关研究
    1. Scaling Language Models: Methods, Analysis & Insights from Training Gopher 2. PaLM: Scaling with Sensible Pre-training for Efficient Language Models 3. GLM: General Language Model Pretraining with Autoregressive Blank Infilling 4. Bridging the Gap between Masked and Autoregressive Language Modeling via Bidirectional Contextual Mixing 5. Diffusion Language Models: A Survey of Methods and Applications
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问