Optimal Block-Level Draft Verification for Accelerating Speculative Decoding

简介

推测解码已被证明是一种在推理过程中加速大型语言模型（LLMs）的无损有效方法。在每个迭代中，算法首先使用较小的模型起草一块标记。然后，这些标记在大型模型中进行并行验证，只有一部分标记将被保留，以确保最终输出遵循大型模型的分布。在之前的所有推测解码工作中，起草验证是逐个标记地独立执行的。在本文中，我们提出了一种更好的起草验证算法，可以提供额外的墙钟加速，而不会增加计算成本和起草标记。我们首先将起草验证步骤制定为块级最优传输问题。块级别的制定允许我们考虑更广泛的起草验证算法，并在一个起草块中预期获得更多的接受标记。我们提出了一种验证算法，它实现了块级传输问题的最优接受长度。我们在各种任务和数据集中对我们提出的块级验证算法进行了实证评估，并观察到与标记级验证算法相比的墙钟加速的一致改进。据我们所知，我们的工作是首次通过更好的起草验证算法建立在推测解码上的改进。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

提高大型语言模型推理速度的有效方法是什么？

关键思路

使用块级最优传输问题作为草稿验证步骤的解决方案

其它亮点

论文提出了一种块级验证算法，通过草稿验证步骤的优化来提高大型语言模型的推理速度，实验结果表明，该算法在多个任务和数据集上都能取得一致的改进效果。

Optimal Block-Level Draft Verification for Accelerating Speculative Decoding

提问交流

提问交流