OPT-Tree: Speculative Decoding with Adaptive Draft Tree Structure

简介

自回归语言模型在各种场景中表现出优异的性能。然而，由于其一步一词的生成模式，推理效率受到限制，这已成为一个近期越来越严重的问题，尤其是随着模型变得越来越大。推测性解码采用“起草然后验证”的机制，允许在一步中生成多个标记，实现无损加速。现有方法主要采用固定的启发式草案结构，无法适应不同情况以最大化验证过程中的接受长度。为了缓解这个困境，我们提出了OPT-Tree，一种构建自适应且可扩展的草案树算法。它搜索最优的树结构，以最大化每个解码步骤中接受长度的数学期望。实验结果表明，OPT-Tree优于现有的草案结构，并与自回归解码相比实现了高达3.2倍的加速比。如果草案模型足够强大且节点预算足够，它可以在单个步骤中生成十个以上的标记。我们的代码可在https://github.com/Jikai0Wang/OPT-Tree获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决自回归语言模型中生成速度慢的问题，通过提出一种自适应且可扩展的草稿树算法来实现多个token的一步生成，从而加速推理过程。
关键思路

论文提出了一种自适应的草稿树算法OPT-Tree，通过搜索最优的树结构来最大化每个解码步骤的接受长度的数学期望，从而实现多个token的一步生成。
其它亮点

论文的实验结果显示，OPT-Tree相比现有的草稿结构表现更好，与自回归解码相比，加速比达到了3.2倍。如果草稿模型足够强大且节点预算足够，可以一次生成超过十个token。作者已经在Github上开源了代码。
相关研究

最近的相关研究包括使用不同的草稿结构来加速自回归语言模型的研究，如Fixed-Structure Drafting和Dynamic-Structure Drafting。

OPT-Tree: Speculative Decoding with Adaptive Draft Tree Structure

提问交流

提问交流