- 简介最近大型语言模型(LLMs)的进展是非常惊人的,但是与之相关的推理成本不断上升,这给实际应用带来了挑战。为了解决这些挑战,我们提出了一种新的方法,称为具有无损加速的早期退出推测解码(EESD)。具体而言,EESD利用LLM的一部分生成草稿令牌,在前N层之后加入早期退出结构。为了提高草稿令牌的质量,还集成了自我蒸馏方法。这种早期退出设计不仅降低了部署和训练成本,而且显著加速了令牌生成速度。此外,我们引入了一种新颖的采样机制,利用汤普森采样来调节生成过程,自动确定每轮草稿令牌的数量。然后,原始LLM通过单次前向传递来验证这些草稿令牌,从而确保最终输出文本保持与香草自回归解码一致的分布。对13B和70B模型的实验结果表明,与先前的方法相比,我们的方法以显着加速的速度解码令牌,显示了我们方法的有效性。
- 图表
- 解决问题解决大语言模型(LLMs)推理成本高的问题,提高实际应用中的速度和效率。
- 关键思路提出一种名为Early-exiting Speculative Decoding (EESD)的方法,通过在前N层之后引入Early-exiting结构,利用LLM生成草稿标记,并结合自我蒸馏方法来提高草稿标记的质量。然后使用Thompson Sampling采样机制来调节生成过程,自动确定每轮中草稿标记的数量。最后使用原始LLM对这些草稿标记进行验证,以确保最终输出的文本与基本自回归解码的分布一致。
- 其它亮点该方法可以显著加速标记生成速度,同时减少部署和训练成本。实验结果表明,与之前的方法相比,该方法在13B和70B模型上解码速度显著加快。此外,该方法还引入了一种新的采样机制,具有很好的实用价值。
- 近期的相关研究包括《Scaling Laws for Neural Language Models》、《ReZero is All You Need: Fast Convergence at Large Depth》等。
沙发等你来抢
去评论
评论
沙发等你来抢