- 简介扩散语言模型有望实现快速的并行生成,而自回归(AR)模型由于其因果结构与语言建模天然契合,通常在生成质量上表现更优。这引发了一个根本性问题:我们能否实现一种协同效应,在保持高吞吐量和更高GPU利用率的同时,达到自回归模型级别的生成质量?现有方法未能有效平衡这两方面:要么优先采用自回归方式,使用较弱的模型进行顺序式草稿生成(如推测解码),导致草稿生成效率较低;要么在扩散模型中引入某种形式的从左到右(类自回归)解码逻辑,但这仍会导致质量下降,并牺牲了扩散模型本有的并行潜力。本文提出TiDAR,一种序列级混合架构,它在一个前向传播过程中,利用专门设计的结构化注意力掩码,以扩散方式生成候选词元(“思考”阶段),再以自回归方式采样最终输出(“表达”阶段)。该设计充分利用了GPU空闲计算资源,在草稿生成能力和验证能力之间实现了良好平衡。此外,TiDAR被设计为一个独立且便于部署的服务友好型模型(开销低)。我们在15亿和80亿参数规模上,针对生成任务和似然度任务,对TiDAR与自回归模型、推测解码方法以及各类扩散模型变体进行了广泛评估。得益于并行的草稿生成与采样机制,以及对KV缓存的精确支持,TiDAR在实测吞吐量上优于推测解码,并在效率和质量两方面均超越了Dream和Llada等扩散模型。尤为突出的是,TiDAR是首个在不牺牲生成质量的前提下,每秒输出token数量达到自回归模型4.71倍至5.91倍的架构。
-
- 图表
- 解决问题论文试图解决在保持自回归(AR)模型生成质量的同时提升推理吞吐量和GPU利用率的问题。传统AR模型虽然生成质量高,但逐token生成导致速度慢;扩散语言模型虽支持并行生成,但质量通常低于AR模型。现有方法如推测解码(speculative decoding)或类AR的扩散解码难以兼顾效率与质量。这是一个当前大模型推理中亟需平衡的核心问题,尽管已有相关尝试,但尚未有效解决质量与并行性的权衡。
- 关键思路提出TiDAR架构,一种序列级混合模型,在单次前向传播中结合扩散模型进行并行token草稿生成(Thinking)和自回归方式进行最终输出采样(Talking),通过精心设计的结构化注意力掩码实现两者协同。关键创新在于将扩散的并行效率与AR的质量保证统一于一个模型中,无需外部草稿模型,且保留KV缓存支持,真正实现高效、高质量的端到端生成。
- 其它亮点在1.5B和8B规模上广泛评估了TiDAR在生成与似然任务上的表现;实验显示其相较推测解码提升了吞吐量,相比Dream、Llada等扩散模型在效率与质量上均更优;首次在不牺牲质量的前提下显著超越AR模型的推理速度(4.71x~5.91x更高的tokens/秒);设计服务于部署友好性(低开销),作为单一模型运行;支持精确KV缓存,增强实际推理效率;代码与细节若开源将极大推动高效推理研究。
- 近期相关工作包括:'Speculative Decoding: Accelerating Generative Inference with Parallel Sampling'(2023);'Efficient Diffusion Models for Language: Challenges and Opportunities'(2024);'Llada: Autoregressive Diffusion for Fast Text Generation'(2024);'Dream: Dual-Stream Diffusion for Non-Autoregressive Text Generation'(2024);'Fast Inference with Speculative Decoding and Adaptive Drafting'(2024);'Parallel Text Generation with Consistency Models'(2023)。这些工作分别探索了推测解码、非自回归扩散、双流结构等路径,但均未能完全兼顾质量、效率与部署实用性。


提问交流