Accelerating Speculative Decoding using Dynamic Speculation Length

2024年05月07日
  • 简介
    本文介绍了一种降低大型语言模型推理延迟的有前途的方法——推测解码。该方法的有效性取决于推测长度(SL)——草稿模型在每次迭代中生成的标记数。绝大多数推测解码方法都使用相同的SL进行所有迭代。在本文中,我们展示了这种做法是次优的。我们引入了DISCO,一种动态规划推测长度优化方法,它使用分类器在每次迭代中动态调整SL,同时可证明保持解码质量。对四个基准测试的实验表明,与我们的最佳基线相比,平均加速增益为10.3%。
  • 图表
  • 解决问题
    优化大型语言模型的推理延迟问题,提高推理速度。
  • 关键思路
    提出一种动态调整推理长度的优化方法DISCO,通过分类器动态调整每次迭代的推理长度,从而提高推理速度,同时保证推理质量。
  • 其它亮点
    实验结果表明,相对于最佳基线方法,DISCO方法能够获得平均10.3%的速度提升。
  • 相关研究
    最近的相关研究包括使用缓存机制、剪枝、量化等方法来优化推理速度的研究,例如《Efficient Transformers: A Survey》、《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论