TiDAR: Think in Diffusion, Talk in Autoregression

向作者提问

NEW

简介

扩散语言模型有望实现快速的并行生成，而自回归（AR）模型由于其因果结构与语言建模天然契合，通常在生成质量上表现更优。这引发了一个根本性问题：我们能否实现一种协同效应，在保持高吞吐量和更高GPU利用率的同时，达到自回归模型级别的生成质量？现有方法未能有效平衡这两方面：要么优先采用自回归方式，使用较弱的模型进行顺序式草稿生成（如推测解码），导致草稿生成效率较低；要么在扩散模型中引入某种形式的从左到右（类自回归）解码逻辑，但这仍会导致质量下降，并牺牲了扩散模型本有的并行潜力。本文提出TiDAR，一种序列级混合架构，它在一个前向传播过程中，利用专门设计的结构化注意力掩码，以扩散方式生成候选词元（“思考”阶段），再以自回归方式采样最终输出（“表达”阶段）。该设计充分利用了GPU空闲计算资源，在草稿生成能力和验证能力之间实现了良好平衡。此外，TiDAR被设计为一个独立且便于部署的服务友好型模型（开销低）。我们在15亿和80亿参数规模上，针对生成任务和似然度任务，对TiDAR与自回归模型、推测解码方法以及各类扩散模型变体进行了广泛评估。得益于并行的草稿生成与采样机制，以及对KV缓存的精确支持，TiDAR在实测吞吐量上优于推测解码，并在效率和质量两方面均超越了Dream和Llada等扩散模型。尤为突出的是，TiDAR是首个在不牺牲生成质量的前提下，每秒输出token数量达到自回归模型4.71倍至5.91倍的架构。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决在保持自回归（AR）模型生成质量的同时提升推理吞吐量和GPU利用率的问题。传统AR模型虽然生成质量高，但逐token生成导致速度慢；扩散语言模型虽支持并行生成，但质量通常低于AR模型。现有方法如推测解码（speculative decoding）或类AR的扩散解码难以兼顾效率与质量。这是一个当前大模型推理中亟需平衡的核心问题，尽管已有相关尝试，但尚未有效解决质量与并行性的权衡。
关键思路

提出TiDAR架构，一种序列级混合模型，在单次前向传播中结合扩散模型进行并行token草稿生成（Thinking）和自回归方式进行最终输出采样（Talking），通过精心设计的结构化注意力掩码实现两者协同。关键创新在于将扩散的并行效率与AR的质量保证统一于一个模型中，无需外部草稿模型，且保留KV缓存支持，真正实现高效、高质量的端到端生成。
其它亮点

在1.5B和8B规模上广泛评估了TiDAR在生成与似然任务上的表现；实验显示其相较推测解码提升了吞吐量，相比Dream、Llada等扩散模型在效率与质量上均更优；首次在不牺牲质量的前提下显著超越AR模型的推理速度（4.71x~5.91x更高的tokens/秒）；设计服务于部署友好性（低开销），作为单一模型运行；支持精确KV缓存，增强实际推理效率；代码与细节若开源将极大推动高效推理研究。
相关研究

近期相关工作包括：'Speculative Decoding: Accelerating Generative Inference with Parallel Sampling'（2023）；'Efficient Diffusion Models for Language: Challenges and Opportunities'（2024）；'Llada: Autoregressive Diffusion for Fast Text Generation'（2024）；'Dream: Dual-Stream Diffusion for Non-Autoregressive Text Generation'（2024）；'Fast Inference with Speculative Decoding and Adaptive Drafting'（2024）；'Parallel Text Generation with Consistency Models'（2023）。这些工作分别探索了推测解码、非自回归扩散、双流结构等路径，但均未能完全兼顾质量、效率与部署实用性。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问