Speculative Decoding via Early-exiting for Faster LLM Inference with Thompson Sampling Control Mechanism

2024年06月06日
  • 简介
    最近大型语言模型(LLMs)的进展是非常惊人的,但是与之相关的推理成本不断上升,这给实际应用带来了挑战。为了解决这些挑战,我们提出了一种新的方法,称为具有无损加速的早期退出推测解码(EESD)。具体而言,EESD利用LLM的一部分生成草稿令牌,在前N层之后加入早期退出结构。为了提高草稿令牌的质量,还集成了自我蒸馏方法。这种早期退出设计不仅降低了部署和训练成本,而且显著加速了令牌生成速度。此外,我们引入了一种新颖的采样机制,利用汤普森采样来调节生成过程,自动确定每轮草稿令牌的数量。然后,原始LLM通过单次前向传递来验证这些草稿令牌,从而确保最终输出文本保持与香草自回归解码一致的分布。对13B和70B模型的实验结果表明,与先前的方法相比,我们的方法以显着加速的速度解码令牌,显示了我们方法的有效性。
  • 图表
  • 解决问题
    解决大语言模型(LLMs)推理成本高的问题,提高实际应用中的速度和效率。
  • 关键思路
    提出一种名为Early-exiting Speculative Decoding (EESD)的方法,通过在前N层之后引入Early-exiting结构,利用LLM生成草稿标记,并结合自我蒸馏方法来提高草稿标记的质量。然后使用Thompson Sampling采样机制来调节生成过程,自动确定每轮中草稿标记的数量。最后使用原始LLM对这些草稿标记进行验证,以确保最终输出的文本与基本自回归解码的分布一致。
  • 其它亮点
    该方法可以显著加速标记生成速度,同时减少部署和训练成本。实验结果表明,与之前的方法相比,该方法在13B和70B模型上解码速度显著加快。此外,该方法还引入了一种新的采样机制,具有很好的实用价值。
  • 相关研究
    近期的相关研究包括《Scaling Laws for Neural Language Models》、《ReZero is All You Need: Fast Convergence at Large Depth》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论