ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

向作者提问

NEW

简介

自回归模型（ARM）受限于缓慢的序列化推理过程。尽管掩码扩散模型（MDM）提供了一种并行化的替代方案，但其存在两个关键缺陷：一是由于无法使用键值（KV）缓存而导致较高的计算开销，二是在难以处理的令牌组合空间中学习依赖关系所引发的生成内容不连贯问题。为解决这些局限性，我们提出了ReFusion——一种全新的掩码扩散模型，通过将并行解码从令牌级别提升至更高的“槽位”（slot）级别来实现更优的性能与效率，其中每个槽位表示一个固定长度的连续子序列。该方法通过一种迭代式的“规划-填充”（plan-and-infill）解码流程实现：首先，在基于扩散的规划阶段确定一组弱依赖性的槽位；随后，在自回归的填充阶段并行解码这些选定的槽位。这种基于槽位的设计不仅在统一的因果框架下实现了完整的KV缓存复用，还将学习复杂度从庞大的令牌组合空间降低至可控的槽位排列空间。在七个多样化基准上的大量实验表明，ReFusion不仅以平均34%的性能提升和超过18倍的速度加快大幅超越以往的MDM方法，而且在保持平均2.33倍速度优势的同时，成功缩小了与强大自回归模型之间的性能差距。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决自回归模型（ARMs）在推理过程中因串行生成导致的解码速度慢问题，同时克服现有掩码扩散模型（MDMs）在并行生成中面临的高计算开销（无法使用KV缓存）和生成结果不连贯（需建模指数级token组合空间）的问题。这个问题在当前生成模型高效推理的研究中具有重要性和现实需求，虽非全新问题，但结合扩散模型与高效缓存机制的角度仍具挑战性。
关键思路

提出ReFusion，一种新型掩码扩散模型，其核心创新在于将并行解码从token级别提升到“槽位”（slot）级别，每个槽位为固定长度的连续子序列。通过“规划-填充”（plan-and-infill）的迭代过程：先用扩散模型规划出弱依赖的槽位，再以自回归方式并行填充这些槽位。该设计首次在扩散语言模型中实现完整的KV缓存复用，并将学习复杂度从token组合空间降至可管理的槽位排列空间。相比现有MDMs，此方法兼顾了并行性、效率与生成质量。
其它亮点

论文在七个多样化基准上进行了广泛实验，结果显示ReFusion相比先前MDMs平均性能提升34%，速度加快超过18倍，同时性能接近强自回归模型（如GPT类），并保持平均2.33倍的速度优势。实验设计合理，覆盖多种生成任务。亮点包括：首次在扩散语言模型中实现完整KV缓存支持；显著缩小了非自回归模型与自回归模型之间的性能差距；代码已开源，便于复现与后续研究。值得深入的方向包括：动态槽位长度设计、跨语言迁移能力验证、以及在长文本生成中的扩展应用。
相关研究

1. FlowSeq: Non-Autoregressive Conditional Sequence Generation with Generative Flow 2. MaskGIT: Masked Generative Image Transformer for Fast Image Generation 3. Inference-Time Scalability in Diffusion Language Models 4. COLD: Continuous Latent Space Diffusion for Text Generation 5. DiffuSeq: Sequence to Sequence Text Generation with Diffusion Models

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问