- 简介随着(因果)大型语言模型(LLMs)规模的不断扩大,推理效率成为改进性能的核心问题之一。与内存占用相比,延迟瓶颈似乎更为重要,因为每天可能会有数十亿次对LLM(例如GPT-4)的请求。瓶颈主要是由于LLM的自回归本质所致,其中在解码期间仅能按顺序生成标记。为了缓解瓶颈,将计算机体系结构领域的推测执行思想引入到LLM解码中,以“草案-验证”方式进行。在这种方式下,通过利用一些启发式方法,将以快速的速度起草一系列标记,然后由LLM并行验证这些标记。随着昂贵的顺序推理并行化,LLM解码速度可以显著提高。由于LLMs近年来的成功,这个方向的文献越来越多。然而,缺乏一个定位调查来总结当前的状况并为未来发展制定路线图。为了满足这种需求,我们提出了第一篇调查论文,综述了LLMs中的推测执行文献(例如分块并行解码,推测解码等),并提供了一个全面的框架和系统的分类。基于这个分类,我们对当前的艺术进行了批判性的评论和比较分析。最后,我们强调了各种关键挑战和未来方向,以进一步发展这个领域。
-
- 图表
- 解决问题解决LLMs推理效率低下的问题,提高推理速度。
- 关键思路采用类似计算机体系结构中的speculative execution思想,在LLMs解码过程中引入draft-then-verify的策略,即先通过启发式方法快速生成一系列token,再并行验证这些token,从而加速LLMs的推理速度。
- 其它亮点论文提出了综合框架和系统分类,对当前speculative execution在LLMs中的研究进行了综述和比较分析。论文还提出了未来发展的关键挑战和方向。
- 近年来,关于speculative execution在LLMs中的研究逐渐增多,如blockwise parallel decoding和speculative decoding等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流