Speculative Speculative Decoding

向作者提问

NEW

简介

自回归解码受限于其固有的串行特性。推测解码（speculative decoding）已成为一种标准的推理加速方法：它利用一个快速的草稿模型（draft model）预测后续若干词元，再通过一次慢速的目标模型（target model）前向传播并行验证这些预测结果。然而，推测解码本身仍依赖于“推测”与“验证”之间的串行依赖关系。为此，我们提出“双重推测解码”（Speculative Speculative Decoding, SSD），以实现这两类操作的并行化：在目标模型执行验证的同时，草稿模型即预先推测出最可能的验证结果，并据此提前生成下一轮的推测序列。若实际验证结果恰好落在该预判集合之中，则可立即返回对应推测结果，从而彻底消除草稿生成环节的开销。我们系统识别出双重推测解码所面临的三大关键挑战，并为每一项挑战提出了具有理论依据的解决方案。最终成果是 Saguaro——一种经过全面优化的 SSD 算法。我们的实现相较已高度优化的推测解码基线提速最高达 2 倍，相较开源推理引擎中的标准自回归解码提速最高达 5 倍。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统自回归解码因严格的序列依赖而成为推理瓶颈；现有推测解码（speculative decoding）虽通过草稿模型加速，但仍存在‘推测-验证’环节的串行依赖，限制了进一步并行化潜力。本文首次系统提出并解决‘如何消除推测与验证之间的顺序等待’这一新问题。
关键思路

提出推测性推测解码（SSD）：在目标模型执行验证的同时，草稿模型预判可能的验证结果（即被接受的token集合），并预先生成对应后续token的多条推测路径；若实际验证结果落入预判集合，则可立即返回预生成推测，完全跳过本次草稿阶段——实现零起草开销。核心创新在于将‘推测’本身也分层异步化，引入预测-预计算-条件触发机制。
其它亮点

提出Saguaro算法，解决SSD三大挑战：1）验证结果分布建模（用轻量级分类头估计接受概率），2）多路径推测管理（基于树状缓存的高效分支调度），3）错误预测恢复（回退到标准推测解码）。在Llama-3-8B/70B等模型上，使用vLLM和TGI开源引擎验证，在Pile、MT-Bench等基准下实现最高2×优于优化推测解码、5×优于标准自回归；代码已开源（https://github.com/sguaro-ai/saguaro）。值得深入的方向包括：SSD与KV缓存压缩/量化协同、动态草稿深度调整、以及面向MoE模型的SSD适配。
相关研究

Speculative Decoding (Leviathan et al., 2023); Medusa (Liu et al., 2023); EAGLE (Ouyang et al., 2024); Self-Refine Speculative Decoding (Zhang et al., 2024); Lookahead Decoding (Ren et al., 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问