EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test

2025年03月03日
  • 简介
    现代大型语言模型(LLM)的顺序性使其成本高昂且速度缓慢,而推测性采样已被证明是解决这一问题的有效方法。类似EAGLE的方法在特征级别进行自回归,重用目标模型的顶层特征,从而比传统的推测性采样取得更好的效果。在LLM社区中,一种日益增长的趋势是通过扩大训练数据来提高模型的智能水平,而不增加推理成本。然而,我们观察到,对于EAGLE而言,扩大数据规模带来的改进有限。我们发现这种局限性源于EAGLE的特征预测约束。在本文中,我们引入了EAGLE-3,它放弃了特征预测,转而直接进行标记预测,并通过一种名为“训练时测试”的技术,用多层特征融合取代对顶层特征的依赖。这些改进显著提升了性能,使草稿模型能够充分利用扩大的训练数据。我们的实验涵盖了聊天模型和推理模型,并在五个任务上进行了评估。结果表明,EAGLE-3的速度提升比例最高可达6.5倍,相较于EAGLE-2约有1.4倍的改进。代码可在https://github.com/SafeAILab/EAGLE获取。
  • 图表
  • 解决问题
    该论文试图解决现代大型语言模型(LLM)由于其顺序性导致的昂贵和缓慢的问题。尽管增加训练数据规模可以提高模型性能,但现有的EAGLE方法在这一方面遇到了瓶颈,无法充分利用大规模数据的优势。
  • 关键思路
    论文提出了一种新的方法EAGLE-3,它放弃了EAGLE原有的特征预测方式,转而采用直接的token预测,并通过多层特征融合技术(即训练时测试)来替代对顶层特征的依赖。这种方法不仅提高了性能,还使得模型能够更好地从增加的训练数据中获益。
  • 其它亮点
    1. EAGLE-3实现了高达6.5倍的速度提升,相比EAGLE-2有1.4倍的改进。 2. 实验涵盖了聊天模型和推理模型,并在五个任务上进行了评估。 3. 提供了开源代码(https://github.com/SafeAILab/EAGLE),便于复现和进一步研究。 4. 研究表明,EAGLE-3可以更有效地利用大规模训练数据,为未来的研究提供了新的方向。
  • 相关研究
    最近在这个领域内的相关研究包括: 1. Speculative Sampling: Improving Autoregressive Modeling by Sampling during Inference 2. Efficient Autoregressive Language Modeling via Token-Level Feature Reuse 3. Scaling Laws for Neural Language Models 这些研究都致力于提高LLM的效率和性能,但EAGLE-3通过独特的多层特征融合和直接token预测方法,在此方面取得了显著进展。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论