The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models

向作者提问

NEW

简介

扩散式大语言模型（dLLMs）打破了传统大语言模型严格遵循从左到右的生成约束，支持以任意顺序生成词元（token）。直观来看，这种灵活性意味着其解空间严格包含（即完全覆盖）固定自回归路径所对应的解空间，理论上应能为数学推理、程序编写等通用任务释放更强大的推理能力。因此，大量研究工作尝试借助强化学习（RL）来激发dLLMs的推理能力。本文揭示了一个反直觉的事实：就当前实现形式而言，任意顺序生成非但未能拓展dLLMs的推理能力边界，反而实质性地收窄了该边界。我们发现，dLLMs倾向于利用这种顺序灵活性，刻意跳过那些对探索过程至关重要的高不确定性词元，从而导致解空间过早坍缩。这一发现促使我们重新审视面向dLLMs的强化学习方法——现有方法往往将大量复杂性（例如处理组合爆炸式的轨迹空间、应对难以计算的似然函数等）投入于维系“任意顺序”这一特性本身。我们证明，若主动放弃对任意顺序生成的执着，转而采用标准的“组相对策略优化”（Group Relative Policy Optimization, GRPO）方法，反而能更有效地激发dLLMs的推理能力。我们提出的这一极简方案——JustGRPO——虽设计简洁，却展现出令人意外的卓越性能（例如在GSM8K基准测试上准确率达89.1%），同时完整保留了dLLMs固有的并行解码能力。项目主页：https://nzl-thu.github.io/the-flexibility-trap
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文质疑当前扩散大语言模型（dLLMs）通过任意顺序token生成提升推理能力的主流假设，揭示该灵活性反而导致模型跳过高不确定性关键token、引发解空间过早坍缩，从而损害数学与代码等复杂推理任务性能——这是一个对dLLMs基础设计范式的批判性新问题。
关键思路

摒弃为维持生成顺序灵活性而设计的复杂RL方法（如处理组合轨迹、不可计算似然），转而采用简洁的标准Group Relative Policy Optimization（GRPO）框架，强制结构化推理路径（如左-to-right或分步规划），同时完全保留dLLMs固有的并行解码能力；核心洞见是：'灵活性'在当前dLLM训练范式下是陷阱而非优势，约束性归纳偏置反而更利于推理泛化。
其它亮点

在GSM8K上达89.1%准确率，显著超越同期dLLM RL方法；实验严格控制变量，对比了不同顺序策略（随机/贪心/GRPO约束）对解空间熵与最终答案正确率的影响；使用标准数学与代码基准（GSM8K、MATH、HumanEval）；代码与模型已开源（项目页https://nzl-thu.github.io/the-flexibility-trap）；重要延伸方向：探索轻量级顺序先验（如step-wise masking）与并行解码的最优耦合机制。
相关研究

DiffusionLM: Diffusion Language Models with Non-Autoregressive Generation (NeurIPS 2023); DALL-E 3's Reasoning Chains via Latent Diffusion (ICML 2024 Workshop); AR-Diff: Autoregressive-Diffusion Hybrids for Program Synthesis (ACL 2024); Stepwise Diffusion for Mathematical Reasoning (ICLR 2024 Spotlight)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问