Diffusion Language Models are Super Data Learners

向作者提问

NEW

简介

在严格控制的预训练条件下，我们观察到一种“交叉现象”（Crossover）：当独特数据有限时，通过增加训练轮数，扩散语言模型（DLMs）的表现持续超越自回归（AR）模型。随着数据量增加或数据质量提高，这种交叉现象出现得更晚；而模型规模越大，交叉则越早发生；该现象在密集和稀疏架构中均普遍存在。我们认为这一优势源于三个叠加因素：（1）任意顺序建模能力，（2）迭代式双向去噪带来的超高计算密度，以及（3）内置的蒙特卡洛增强机制；尽管在数据受限的情况下，对输入或参数添加噪声可提升AR模型表现，但仍无法弥补差距。在大规模实验中，一个17亿参数的DLM在约1.5万亿token的计算预算下，仅使用100亿个独特的Python token进行训练，其表现便超过了在完全相同设置下训练的AR代码生成模型。此外，一个10亿参数的DLM仅通过重复标准预训练数据（使用10亿token），就在HellaSwag任务上实现了超过56%的准确率，在MMLU任务上达到超过33%的准确率，且未使用任何特殊技巧。我们还发现，在此训练范式下，验证集上的交叉熵上升并不意味着下游任务性能的下降。
图表
解决问题

论文探讨在严格控制的预训练条件下，当独特数据有限时，扩散语言模型（DLMs）为何能超越传统的自回归模型（AR），并验证了在数据受限场景下DLMs通过多轮训练提升性能的假设。这是一个重要但此前未被充分认识的问题，尤其是在大规模语言建模中对训练效率与数据利用率的权衡方面。
关键思路

提出DLM在数据受限时通过多次训练周期可超越AR模型的关键现象——即‘交叉点’（Crossover）效应，并归因于三个核心机制：任意顺序建模、迭代双向去噪带来的超密集计算、以及内建的蒙特卡洛数据增强。这一思路突破了传统AR模型单向生成范式的局限，揭示了DLM在数据利用效率上的根本优势。
其它亮点

实验设计严谨，在完全匹配的训练设置下对比DLM与AR模型；使用10B独特Python token和1.5T计算量预算，1.7B参数DLM超越同规模AR coder；1B参数DLM仅用1B tokens数据就在HellaSwag（>56%）和MMLU（>33%）上取得显著结果，且无需特殊技巧，仅靠重复标准预训练数据；发现验证集交叉熵上升并不一定意味着下游性能下降，挑战了传统训练监控指标的认知；目前尚未提及代码是否开源。值得深入研究的方向包括DLM的训练动态分析、收敛特性优化及在更广泛任务中的迁移能力。
相关研究

1. Palette: Image-to-Image Diffusion Models 2. Structured Denoising Diffusion Models in Discrete State-Spaces 3. Diffusion Language Models: A Survey 4. Bidirectional Text Generation with Asynchronous Decoding 5. Flow Contrastive Estimation of Language Distributions

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问