Beyond the Speculative Game: A Survey of Speculative Execution in Large Language Models

简介

随着（因果）大型语言模型（LLMs）规模的不断扩大，推理效率成为改进性能的核心问题之一。与内存占用相比，延迟瓶颈似乎更为重要，因为每天可能会有数十亿次对LLM（例如GPT-4）的请求。瓶颈主要是由于LLM的自回归本质所致，其中在解码期间仅能按顺序生成标记。为了缓解瓶颈，将计算机体系结构领域的推测执行思想引入到LLM解码中，以“草案-验证”方式进行。在这种方式下，通过利用一些启发式方法，将以快速的速度起草一系列标记，然后由LLM并行验证这些标记。随着昂贵的顺序推理并行化，LLM解码速度可以显著提高。由于LLMs近年来的成功，这个方向的文献越来越多。然而，缺乏一个定位调查来总结当前的状况并为未来发展制定路线图。为了满足这种需求，我们提出了第一篇调查论文，综述了LLMs中的推测执行文献（例如分块并行解码，推测解码等），并提供了一个全面的框架和系统的分类。基于这个分类，我们对当前的艺术进行了批判性的评论和比较分析。最后，我们强调了各种关键挑战和未来方向，以进一步发展这个领域。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

解决LLMs推理效率低下的问题，提高推理速度。

关键思路

采用类似计算机体系结构中的speculative execution思想，在LLMs解码过程中引入draft-then-verify的策略，即先通过启发式方法快速生成一系列token，再并行验证这些token，从而加速LLMs的推理速度。

其它亮点

论文提出了综合框架和系统分类，对当前speculative execution在LLMs中的研究进行了综述和比较分析。论文还提出了未来发展的关键挑战和方向。

Beyond the Speculative Game: A Survey of Speculative Execution in Large Language Models

提问交流

提问交流