- 简介在严格控制的预训练条件下,我们观察到一种“交叉现象”(Crossover):当独特数据有限时,通过增加训练轮数,扩散语言模型(DLMs)的表现持续超越自回归(AR)模型。随着数据量增加或数据质量提高,这种交叉现象出现得更晚;而模型规模越大,交叉则越早发生;该现象在密集和稀疏架构中均普遍存在。我们认为这一优势源于三个叠加因素:(1)任意顺序建模能力,(2)迭代式双向去噪带来的超高计算密度,以及(3)内置的蒙特卡洛增强机制;尽管在数据受限的情况下,对输入或参数添加噪声可提升AR模型表现,但仍无法弥补差距。在大规模实验中,一个17亿参数的DLM在约1.5万亿token的计算预算下,仅使用100亿个独特的Python token进行训练,其表现便超过了在完全相同设置下训练的AR代码生成模型。此外,一个10亿参数的DLM仅通过重复标准预训练数据(使用10亿token),就在HellaSwag任务上实现了超过56%的准确率,在MMLU任务上达到超过33%的准确率,且未使用任何特殊技巧。我们还发现,在此训练范式下,验证集上的交叉熵上升并不意味着下游任务性能的下降。
- 图表
- 解决问题论文探讨在严格控制的预训练条件下,当独特数据有限时,扩散语言模型(DLMs)为何能超越传统的自回归模型(AR),并验证了在数据受限场景下DLMs通过多轮训练提升性能的假设。这是一个重要但此前未被充分认识的问题,尤其是在大规模语言建模中对训练效率与数据利用率的权衡方面。
- 关键思路提出DLM在数据受限时通过多次训练周期可超越AR模型的关键现象——即‘交叉点’(Crossover)效应,并归因于三个核心机制:任意顺序建模、迭代双向去噪带来的超密集计算、以及内建的蒙特卡洛数据增强。这一思路突破了传统AR模型单向生成范式的局限,揭示了DLM在数据利用效率上的根本优势。
- 其它亮点实验设计严谨,在完全匹配的训练设置下对比DLM与AR模型;使用10B独特Python token和1.5T计算量预算,1.7B参数DLM超越同规模AR coder;1B参数DLM仅用1B tokens数据就在HellaSwag(>56%)和MMLU(>33%)上取得显著结果,且无需特殊技巧,仅靠重复标准预训练数据;发现验证集交叉熵上升并不一定意味着下游性能下降,挑战了传统训练监控指标的认知;目前尚未提及代码是否开源。值得深入研究的方向包括DLM的训练动态分析、收敛特性优化及在更广泛任务中的迁移能力。
- 1. Palette: Image-to-Image Diffusion Models 2. Structured Denoising Diffusion Models in Discrete State-Spaces 3. Diffusion Language Models: A Survey 4. Bidirectional Text Generation with Asynchronous Decoding 5. Flow Contrastive Estimation of Language Distributions


提问交流