- 简介本文介绍了一种降低大型语言模型推理延迟的有前途的方法——推测解码。该方法的有效性取决于推测长度(SL)——草稿模型在每次迭代中生成的标记数。绝大多数推测解码方法都使用相同的SL进行所有迭代。在本文中,我们展示了这种做法是次优的。我们引入了DISCO,一种动态规划推测长度优化方法,它使用分类器在每次迭代中动态调整SL,同时可证明保持解码质量。对四个基准测试的实验表明,与我们的最佳基线相比,平均加速增益为10.3%。
- 图表
- 解决问题优化大型语言模型的推理延迟问题,提高推理速度。
- 关键思路提出一种动态调整推理长度的优化方法DISCO,通过分类器动态调整每次迭代的推理长度,从而提高推理速度,同时保证推理质量。
- 其它亮点实验结果表明,相对于最佳基线方法,DISCO方法能够获得平均10.3%的速度提升。
- 最近的相关研究包括使用缓存机制、剪枝、量化等方法来优化推理速度的研究,例如《Efficient Transformers: A Survey》、《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》等。
沙发等你来抢
去评论
评论
沙发等你来抢