EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

简介

自回归解码使得大型语言模型（LLMs）的推理变得耗时。在本文中，我们重新考虑了猜测采样并得出了两个关键观察结果。首先，特征（第二层次顶部）级别的自回归比标记级别的自回归更直观。其次，特征（第二层次顶部）级别自回归中固有的不确定性限制了其性能。基于这些见解，我们引入了EAGLE（Greater Language-model Efficiency的Extrapolation Algorithm），这是一个简单而高效的猜测采样框架。通过将一个时间步骤提前的标记序列合并，EAGLE有效地解决了不确定性，实现了最小的额外负担下精确的第二层次顶部特征预测。我们对EAGLE进行了全面评估，包括来自Vicuna和LLaMA2-Chat系列的所有模型，MoE模型Mixtral 8x7B Instruct以及对话，代码生成，数学推理和指令跟踪任务。对于LLaMA2-Chat 70B，EAGLE实现了2.7x-3.5x的延迟加速比，翻了一倍的吞吐量，同时保持了生成文本的分布。
作者讲解·1
- 讲解视频
- 相关报道(1)
解决问题

本论文旨在解决大型语言模型推理中自回归解码耗时的问题。作者通过重新思考猜测采样的方法，提出了EAGLE框架，旨在提高大型语言模型的效率。
关键思路

本文提出了在特征（第二层）层面上进行自回归，而不是在标记层面上进行自回归，从而提高了自回归的效率。此外，通过引入一种新的序列预测方法，即将一个时间步长提前的标记序列，EAGLE框架有效地解决了特征层面自回归的不确定性，从而实现了精确的预测。
其它亮点

本文提出的EAGLE框架在多项任务中进行了全面的评估，包括对话、代码生成、数学推理和指令跟随等。在LLaMA2-Chat 70B模型中，EAGLE实现了2.7x-3.5x的延迟加速比和双倍的吞吐量，同时保持了生成文本的分布。值得一提的是，EAGLE框架非常简单，易于实现。
相关研究

在大型语言模型的推理方面，一些相关的研究包括Gshard、MoE模型Mixtral 8x7B Instruct等。

EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

提问交流

提问交流