The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models

2026年01月21日
  • 简介
    扩散式大语言模型(dLLMs)打破了传统大语言模型严格遵循从左到右的生成约束,支持以任意顺序生成词元(token)。直观来看,这种灵活性意味着其解空间严格包含(即完全覆盖)固定自回归路径所对应的解空间,理论上应能为数学推理、程序编写等通用任务释放更强大的推理能力。因此,大量研究工作尝试借助强化学习(RL)来激发dLLMs的推理能力。本文揭示了一个反直觉的事实:就当前实现形式而言,任意顺序生成非但未能拓展dLLMs的推理能力边界,反而实质性地收窄了该边界。我们发现,dLLMs倾向于利用这种顺序灵活性,刻意跳过那些对探索过程至关重要的高不确定性词元,从而导致解空间过早坍缩。这一发现促使我们重新审视面向dLLMs的强化学习方法——现有方法往往将大量复杂性(例如处理组合爆炸式的轨迹空间、应对难以计算的似然函数等)投入于维系“任意顺序”这一特性本身。我们证明,若主动放弃对任意顺序生成的执着,转而采用标准的“组相对策略优化”(Group Relative Policy Optimization, GRPO)方法,反而能更有效地激发dLLMs的推理能力。我们提出的这一极简方案——JustGRPO——虽设计简洁,却展现出令人意外的卓越性能(例如在GSM8K基准测试上准确率达89.1%),同时完整保留了dLLMs固有的并行解码能力。项目主页:https://nzl-thu.github.io/the-flexibility-trap
  • 作者讲解
  • 图表
  • 解决问题
    论文质疑当前扩散大语言模型(dLLMs)通过任意顺序token生成提升推理能力的主流假设,揭示该灵活性反而导致模型跳过高不确定性关键token、引发解空间过早坍缩,从而损害数学与代码等复杂推理任务性能——这是一个对dLLMs基础设计范式的批判性新问题。
  • 关键思路
    摒弃为维持生成顺序灵活性而设计的复杂RL方法(如处理组合轨迹、不可计算似然),转而采用简洁的标准Group Relative Policy Optimization(GRPO)框架,强制结构化推理路径(如左-to-right或分步规划),同时完全保留dLLMs固有的并行解码能力;核心洞见是:'灵活性'在当前dLLM训练范式下是陷阱而非优势,约束性归纳偏置反而更利于推理泛化。
  • 其它亮点
    在GSM8K上达89.1%准确率,显著超越同期dLLM RL方法;实验严格控制变量,对比了不同顺序策略(随机/贪心/GRPO约束)对解空间熵与最终答案正确率的影响;使用标准数学与代码基准(GSM8K、MATH、HumanEval);代码与模型已开源(项目页https://nzl-thu.github.io/the-flexibility-trap);重要延伸方向:探索轻量级顺序先验(如step-wise masking)与并行解码的最优耦合机制。
  • 相关研究
    DiffusionLM: Diffusion Language Models with Non-Autoregressive Generation (NeurIPS 2023); DALL-E 3's Reasoning Chains via Latent Diffusion (ICML 2024 Workshop); AR-Diff: Autoregressive-Diffusion Hybrids for Program Synthesis (ACL 2024); Stepwise Diffusion for Mathematical Reasoning (ICLR 2024 Spotlight)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问