Scaling Speculative Decoding with Lookahead Reasoning

向作者提问

NEW

简介

推理模型的优势在于生成长链的思维过程，但解码由此产生的数千个词元（token）速度较慢。逐词元级别的推测解码（Speculative Decoding, SD）虽有帮助，但其效果受限于整个$\gamma$词元猜测完全正确的概率会随着$\gamma$增长呈指数级下降。这意味着，为更长的词元草案投入更多计算资源会遭遇算法层面的瓶颈——导致加速效果有限且难以依赖硬件性能提升。我们通过“前瞻推理”（Lookahead Reasoning）提升了这一上限，该方法利用了另一个步骤层级上的并行性。我们的核心洞察是：推理模型是逐步生成的，每一步只需语义正确，而无需精确匹配词元。在前瞻推理中，一个轻量级的草案模型提出多个未来步骤；目标模型在一个批量处理过程中扩展每个提案；验证器保留语义正确的步骤，并允许目标模型重新生成那些失败的步骤。逐词元级别的推测解码仍然在每个推理步骤内部运行，因此两种层级的并行性可以相乘。我们从理论和实验上都证明了前瞻推理能够提升推测解码的最大加速潜力。在GSM8K、AIME及其他基准测试中，前瞻推理将推测解码的速度提升从1.4倍提高到了2.1倍，同时保持了答案质量，并且其加速效果能更好地随GPU吞吐量的增加而提升。我们的代码可在以下地址获取：https://github.com/hao-ai-lab/LookaheadReasoning
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决推理模型生成长链思维（chain-of-thought）时解码速度慢的问题。当前的token级推测解码（Speculative Decoding, SD）虽然能加速解码，但其效果受限于猜测长度γ的指数级下降，即随着γ增长，整个token序列猜测正确的概率迅速下降。这是一个在大模型推理效率领域中普遍存在的瓶颈问题。
关键思路

论文提出Lookahead Reasoning方法，引入“步骤级”（step-level）并行性来突破token级推测解码的算法上限。核心思想是：推理过程中的每一步只需语义正确而非token完全匹配，因此可以用轻量级草稿模型生成多个未来步骤提案，主模型批量展开验证，并通过语义一致性筛选保留有效路径。该方法与token级SD形成双重并行结构，从而显著提升整体推理吞吐。
其它亮点

1. 理论分析和实验均表明Lookahead Reasoning显著提升了SD的峰值加速比，从1.4x提升至2.1x。 2. 在GSM8K、AIME等多个数学推理基准上保持答案质量不变的前提下实现加速。 3. 加速效果随GPU算力增强而更明显，说明具有良好的硬件扩展性。 4. 代码已开源（https://github.com/hao-ai-lab/LookaheadReasoning），便于复现和后续研究。
相关研究

1. Efficient Large Language Model Generation: A Survey of Parallel and Distributed Approaches (2023) 2. Speculative Sampling and Fast Token-by-Token Decoding for Large Language Models (2023) 3. Parallel Context Expansion for Efficient LLM Inference 4. Self-Consistency Improves Chain-of-Thought Reasoning in Language Models (Wang et al., 2022) 5. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Wei et al., 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问