EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees

简介

通过现代大型语言模型（LLMs）进行推断是昂贵和耗时的，而投机抽样已被证明是一种有效的解决方案。大多数投机抽样方法（如EAGLE）使用静态草稿树，隐含地假设草稿标记的接受率仅取决于它们的位置。有趣的是，我们发现草稿标记的接受率也与上下文相关。在本文中，我们在EAGLE的基础上提出了EAGLE-2，引入了一种新的上下文感知动态草稿树技术来进行草稿建模。这种改进利用了EAGLE的草稿模型已经很好地校准的事实：草稿模型中的置信度得分近似于接受率，误差很小。我们对三个系列的LLMs和六个任务进行了广泛的评估，EAGLE-2实现了3.05x-4.26x的加速比，比EAGLE-1快20％-40％。EAGLE-2还确保生成文本的分布保持不变，使其成为一种无损加速算法。
图表
解决问题

EAGLE-2论文旨在解决使用现代大型语言模型进行推理时的高昂成本和耗时问题，提出了一种新的上下文感知动态草稿树方法来加速推理。
关键思路

EAGLE-2的关键思路是将上下文感知的动态草稿树引入EAGLE的草稿建模中，以提高草稿令牌的接受率。
其它亮点

论文通过在三个系列的LLMs和六个任务上进行广泛的评估，表明EAGLE-2相比EAGLE-1可以实现3.05x-4.26x的加速比，速度提高了20％-40％，同时保证生成文本的分布不变，是一种无损的加速算法。
相关研究

最近在这个领域中，也有其他一些相关的研究，例如GPT-3，CTRL和T5等。

EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees

评论