Diffusion Language Models are Super Data Learners

2025年11月05日
  • 简介
    在严格控制的预训练条件下,我们观察到一种“交叉现象”(Crossover):当独特数据有限时,通过增加训练轮数,扩散语言模型(DLMs)的表现持续超越自回归(AR)模型。随着数据量增加或数据质量提高,这种交叉现象出现得更晚;而模型规模越大,交叉则越早发生;该现象在密集和稀疏架构中均普遍存在。我们认为这一优势源于三个叠加因素:(1)任意顺序建模能力,(2)迭代式双向去噪带来的超高计算密度,以及(3)内置的蒙特卡洛增强机制;尽管在数据受限的情况下,对输入或参数添加噪声可提升AR模型表现,但仍无法弥补差距。在大规模实验中,一个17亿参数的DLM在约1.5万亿token的计算预算下,仅使用100亿个独特的Python token进行训练,其表现便超过了在完全相同设置下训练的AR代码生成模型。此外,一个10亿参数的DLM仅通过重复标准预训练数据(使用10亿token),就在HellaSwag任务上实现了超过56%的准确率,在MMLU任务上达到超过33%的准确率,且未使用任何特殊技巧。我们还发现,在此训练范式下,验证集上的交叉熵上升并不意味着下游任务性能的下降。
  • 图表
  • 解决问题
    论文探讨在严格控制的预训练条件下,当独特数据有限时,扩散语言模型(DLMs)为何能超越传统的自回归模型(AR),并验证了在数据受限场景下DLMs通过多轮训练提升性能的假设。这是一个重要但此前未被充分认识的问题,尤其是在大规模语言建模中对训练效率与数据利用率的权衡方面。
  • 关键思路
    提出DLM在数据受限时通过多次训练周期可超越AR模型的关键现象——即‘交叉点’(Crossover)效应,并归因于三个核心机制:任意顺序建模、迭代双向去噪带来的超密集计算、以及内建的蒙特卡洛数据增强。这一思路突破了传统AR模型单向生成范式的局限,揭示了DLM在数据利用效率上的根本优势。
  • 其它亮点
    实验设计严谨,在完全匹配的训练设置下对比DLM与AR模型;使用10B独特Python token和1.5T计算量预算,1.7B参数DLM超越同规模AR coder;1B参数DLM仅用1B tokens数据就在HellaSwag(>56%)和MMLU(>33%)上取得显著结果,且无需特殊技巧,仅靠重复标准预训练数据;发现验证集交叉熵上升并不一定意味着下游性能下降,挑战了传统训练监控指标的认知;目前尚未提及代码是否开源。值得深入研究的方向包括DLM的训练动态分析、收敛特性优化及在更广泛任务中的迁移能力。
  • 相关研究
    1. Palette: Image-to-Image Diffusion Models 2. Structured Denoising Diffusion Models in Discrete State-Spaces 3. Diffusion Language Models: A Survey 4. Bidirectional Text Generation with Asynchronous Decoding 5. Flow Contrastive Estimation of Language Distributions
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问