Scaling Behavior of Discrete Diffusion Language Models

向作者提问

NEW

简介

现代大语言模型的预训练消耗巨大的计算资源和海量训练数据，因此不同模型的扩展行为（即缩放定律）成为关键的区别因素。离散扩散语言模型（DLMs）被提出作为自回归语言模型（ALMs）的一种替代方案，但其扩展行为尚未得到充分研究；此前的研究表明，DLMs需要更多的数据和计算资源才能达到与ALMs相当的性能。我们通过在掩码扩散与均匀扩散之间进行平滑插值，系统地研究了不同噪声类型下DLMs的扩展行为，同时密切关注批量大小和学习率等关键超参数的影响。实验结果表明，DLMs的扩展行为强烈依赖于噪声类型，且与ALMs存在显著差异。在计算量受限的扩展模式下，尽管所有类型的噪声最终都能收敛到相近的损失值，但我们发现，与掩码扩散相比，均匀扩散在高效计算训练中需要更多参数但更少的数据，因此在数据受限的场景下具有良好的应用前景。我们将均匀扩散模型扩展至拥有100亿参数、训练量达$10^{22}$ FLOPs的规模，验证了所预测的扩展行为，这也使其成为迄今为止公开报道中规模最大的均匀扩散模型。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在研究离散扩散语言模型（DLMs）在不同噪声类型下的扩展行为（scaling behavior），特别是与自回归语言模型（ALMs）相比，DLMs是否能在计算和数据效率上实现可预测且优越的性能。此前研究表明DLMs需要更多数据和算力才能达到ALMs的性能，因此探索其在不同训练条件下的缩放规律是一个重要且较新的问题。
关键思路

通过在掩码扩散和均匀扩散之间进行平滑插值，系统地分析噪声类型对DLM扩展行为的影响，并重点关注批量大小和学习率等关键超参数的作用。发现均匀扩散在数据受限场景下更具优势——它使用更少的数据、更大的模型即可高效训练，而掩码扩散则偏好更多数据。这一发现揭示了DLMs与ALMs截然不同的缩放路径。
其它亮点

实验设计覆盖多种噪声类型与大规模训练设置，最大模型达100亿参数、训练消耗达10^22 FLOPs，是目前公开最大的均匀扩散语言模型。研究强调了compute-bound与data-bound两种设定下最优配置的差异。虽然未明确提及开源代码，但其大规模验证为后续研究提供了坚实基础。值得深入的方向包括：将该缩放规律推广到多模态任务、结合稀疏训练提升效率、探索更优的噪声调度策略。
相关研究

1. Scaling Language Models: Methods, Analysis & Insights from Training Gopher 2. PaLM: Scaling with Sensible Pre-training for Efficient Language Models 3. GLM: General Language Model Pretraining with Autoregressive Blank Infilling 4. Bridging the Gap between Masked and Autoregressive Language Modeling via Bidirectional Contextual Mixing 5. Diffusion Language Models: A Survey of Methods and Applications

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问