Speculative Decoding via Early-exiting for Faster LLM Inference with Thompson Sampling Control Mechanism

向作者提问

NEW

简介

最近大型语言模型（LLMs）的进展是非常惊人的，但是与之相关的推理成本不断上升，这给实际应用带来了挑战。为了解决这些挑战，我们提出了一种新的方法，称为具有无损加速的早期退出推测解码（EESD）。具体而言，EESD利用LLM的一部分生成草稿令牌，在前N层之后加入早期退出结构。为了提高草稿令牌的质量，还集成了自我蒸馏方法。这种早期退出设计不仅降低了部署和训练成本，而且显著加速了令牌生成速度。此外，我们引入了一种新颖的采样机制，利用汤普森采样来调节生成过程，自动确定每轮草稿令牌的数量。然后，原始LLM通过单次前向传递来验证这些草稿令牌，从而确保最终输出文本保持与香草自回归解码一致的分布。对13B和70B模型的实验结果表明，与先前的方法相比，我们的方法以显着加速的速度解码令牌，显示了我们方法的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决大语言模型（LLMs）推理成本高的问题，提高实际应用中的速度和效率。
关键思路

提出一种名为Early-exiting Speculative Decoding (EESD)的方法，通过在前N层之后引入Early-exiting结构，利用LLM生成草稿标记，并结合自我蒸馏方法来提高草稿标记的质量。然后使用Thompson Sampling采样机制来调节生成过程，自动确定每轮中草稿标记的数量。最后使用原始LLM对这些草稿标记进行验证，以确保最终输出的文本与基本自回归解码的分布一致。
其它亮点

该方法可以显著加速标记生成速度，同时减少部署和训练成本。实验结果表明，与之前的方法相比，该方法在13B和70B模型上解码速度显著加快。此外，该方法还引入了一种新的采样机制，具有很好的实用价值。
相关研究

近期的相关研究包括《Scaling Laws for Neural Language Models》、《ReZero is All You Need: Fast Convergence at Large Depth》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问