- 简介自回归解码受限于其固有的串行特性。推测解码(speculative decoding)已成为一种标准的推理加速方法:它利用一个快速的草稿模型(draft model)预测后续若干词元,再通过一次慢速的目标模型(target model)前向传播并行验证这些预测结果。然而,推测解码本身仍依赖于“推测”与“验证”之间的串行依赖关系。为此,我们提出“双重推测解码”(Speculative Speculative Decoding, SSD),以实现这两类操作的并行化:在目标模型执行验证的同时,草稿模型即预先推测出最可能的验证结果,并据此提前生成下一轮的推测序列。若实际验证结果恰好落在该预判集合之中,则可立即返回对应推测结果,从而彻底消除草稿生成环节的开销。我们系统识别出双重推测解码所面临的三大关键挑战,并为每一项挑战提出了具有理论依据的解决方案。最终成果是 Saguaro——一种经过全面优化的 SSD 算法。我们的实现相较已高度优化的推测解码基线提速最高达 2 倍,相较开源推理引擎中的标准自回归解码提速最高达 5 倍。
-
- 图表
- 解决问题传统自回归解码因严格的序列依赖而成为推理瓶颈;现有推测解码(speculative decoding)虽通过草稿模型加速,但仍存在‘推测-验证’环节的串行依赖,限制了进一步并行化潜力。本文首次系统提出并解决‘如何消除推测与验证之间的顺序等待’这一新问题。
- 关键思路提出推测性推测解码(SSD):在目标模型执行验证的同时,草稿模型预判可能的验证结果(即被接受的token集合),并预先生成对应后续token的多条推测路径;若实际验证结果落入预判集合,则可立即返回预生成推测,完全跳过本次草稿阶段——实现零起草开销。核心创新在于将‘推测’本身也分层异步化,引入预测-预计算-条件触发机制。
- 其它亮点提出Saguaro算法,解决SSD三大挑战:1)验证结果分布建模(用轻量级分类头估计接受概率),2)多路径推测管理(基于树状缓存的高效分支调度),3)错误预测恢复(回退到标准推测解码)。在Llama-3-8B/70B等模型上,使用vLLM和TGI开源引擎验证,在Pile、MT-Bench等基准下实现最高2×优于优化推测解码、5×优于标准自回归;代码已开源(https://github.com/sguaro-ai/saguaro)。值得深入的方向包括:SSD与KV缓存压缩/量化协同、动态草稿深度调整、以及面向MoE模型的SSD适配。
- Speculative Decoding (Leviathan et al., 2023); Medusa (Liu et al., 2023); EAGLE (Ouyang et al., 2024); Self-Refine Speculative Decoding (Zhang et al., 2024); Lookahead Decoding (Ren et al., 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流