Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

2025年12月03日
  • 简介
    强化学习(RL)在自回归语言模型上已展现出极高的有效性,但将这些方法迁移到扩散式大语言模型(dLLMs)时面临根本性挑战。核心难点在于似然度近似:自回归模型天然提供逐词元的条件概率,这对于实现词元级别的强化学习目标(例如 GRPO)至关重要;而 dLLMs 通过迭代式的非自回归去噪步骤生成序列,缺乏这种概率分解特性。为解决这一根本性不匹配问题,我们提出了基于证据下界(ELBO)的序列级策略优化方法(ESPO),这是一种具有理论依据的强化学习框架,将整个序列生成视为单一动作,并采用 ELBO 作为可计算的序列级似然代理。我们的方法引入了词元级重要性比率归一化以及鲁棒的 KL 散度估计,以确保大规模训练的稳定性。在数学推理、代码生成和规划任务上的大量实验表明,ESPO 显著优于词元级基线方法,在 Countdown 任务上性能大幅提升 20 至 40 分,同时在数学与编程基准测试中也保持一致的增益。我们的方法确立了序列级优化作为一种既有理论基础又具备实证效果的 dLLMs 强化学习范式。代码详见 https://github.com/ML-GSAI/ESPO。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决如何在扩散大语言模型(dLLMs)中有效应用强化学习(RL)的问题。由于dLLMs采用非自回归的迭代去噪生成方式,缺乏自回归模型中的逐token条件概率,导致传统的基于token级似然的RL方法(如GRPO)难以直接应用。这是一个新兴且重要的问题,随着dLLMs的发展,如何在其上构建有效的RL训练框架成为亟待解决的挑战。
  • 关键思路
    提出ELBO-based Sequence-level Policy Optimization(ESPO),将整个序列生成视为单一动作,使用证据下界(ELBO)作为序列级似然的可计算代理,从而绕过dLLMs无法提供token级概率的难题。相比现有方法,ESPO首次在dLLMs中实现了序列级策略优化,引入了逐token归一化的重要性权重和鲁棒的KL散度估计,确保训练稳定性,是将RL系统性应用于dLLMs的开创性思路。
  • 其它亮点
    实验在数学推理、代码生成和规划任务上进行,结果显示ESPO在Countdown任务上比token级基线提升20-40个点,并在多个数学与编程基准上保持一致增益。作者开源了代码(https://github.com/ML-GSAI/ESPO),增强了可复现性。未来可探索ELBO代理在其他生成模型中的推广性,以及序列级RL在多模态扩散模型中的应用。
  • 相关研究
    1. Aligning Diffusion Models for Text Generation via Reinforcement Learning (2023) 2. Token-Level vs. Sequence-Level Training in Autoregressive Language Models (ICML 2022) 3. Diffusion-LM Improves Controllable Text Generation (NeurIPS 2022) 4. Sequence-Level Knowledge Distillation with Reinforcement Learning (ACL 2021) 5. Training Language Diffusion Models with Emphasis on High-Quality Text Generation (2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问