- 简介自回归解码使得大型语言模型(LLMs)的推理变得耗时。在本文中,我们重新考虑了猜测采样并得出了两个关键观察结果。首先,特征(第二层次顶部)级别的自回归比标记级别的自回归更直观。其次,特征(第二层次顶部)级别自回归中固有的不确定性限制了其性能。基于这些见解,我们引入了EAGLE(Greater Language-model Efficiency的Extrapolation Algorithm),这是一个简单而高效的猜测采样框架。通过将一个时间步骤提前的标记序列合并,EAGLE有效地解决了不确定性,实现了最小的额外负担下精确的第二层次顶部特征预测。我们对EAGLE进行了全面评估,包括来自Vicuna和LLaMA2-Chat系列的所有模型,MoE模型Mixtral 8x7B Instruct以及对话,代码生成,数学推理和指令跟踪任务。对于LLaMA2-Chat 70B,EAGLE实现了2.7x-3.5x的延迟加速比,翻了一倍的吞吐量,同时保持了生成文本的分布。
-
- 解决问题本论文旨在解决大型语言模型推理中自回归解码耗时的问题。作者通过重新思考猜测采样的方法,提出了EAGLE框架,旨在提高大型语言模型的效率。
- 关键思路本文提出了在特征(第二层)层面上进行自回归,而不是在标记层面上进行自回归,从而提高了自回归的效率。此外,通过引入一种新的序列预测方法,即将一个时间步长提前的标记序列,EAGLE框架有效地解决了特征层面自回归的不确定性,从而实现了精确的预测。
- 其它亮点本文提出的EAGLE框架在多项任务中进行了全面的评估,包括对话、代码生成、数学推理和指令跟随等。在LLaMA2-Chat 70B模型中,EAGLE实现了2.7x-3.5x的延迟加速比和双倍的吞吐量,同时保持了生成文本的分布。值得一提的是,EAGLE框架非常简单,易于实现。
- 在大型语言模型的推理方面,一些相关的研究包括Gshard、MoE模型Mixtral 8x7B Instruct等。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流