Accelerating Speculative Decoding using Dynamic Speculation Length

简介

本文介绍了一种降低大型语言模型推理延迟的有前途的方法——推测解码。该方法的有效性取决于推测长度（SL）——草稿模型在每次迭代中生成的标记数。绝大多数推测解码方法都使用相同的SL进行所有迭代。在本文中，我们展示了这种做法是次优的。我们引入了DISCO，一种动态规划推测长度优化方法，它使用分类器在每次迭代中动态调整SL，同时可证明保持解码质量。对四个基准测试的实验表明，与我们的最佳基线相比，平均加速增益为10.3%。
图表
解决问题

优化大型语言模型的推理延迟问题，提高推理速度。
关键思路

提出一种动态调整推理长度的优化方法DISCO，通过分类器动态调整每次迭代的推理长度，从而提高推理速度，同时保证推理质量。
其它亮点

实验结果表明，相对于最佳基线方法，DISCO方法能够获得平均10.3%的速度提升。
相关研究

最近的相关研究包括使用缓存机制、剪枝、量化等方法来优化推理速度的研究，例如《Efficient Transformers: A Survey》、《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》等。