FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping

2024年04月05日
  • 简介
    自回归大语言模型(例如LLaMa,GPT)无处不在,取得了在语言理解和生成方面的显著成功。然而,这种令人印象深刻的能力通常伴随着巨大的模型大小,这对自回归逐标记生成提出了重大挑战。为了减轻生成过程中的计算负担,已经提出了几种早期退出和层丢弃策略。尽管在Rough-L/BLUE等指标上由于LLM层之间的冗余而取得了一些有希望的成功,但我们仔细的知识密集型评估揭示了一些问题,例如生成崩溃、错误事实的幻觉以及即使在10-15%的层的微不足道的退出比率下也有明显的性能下降。我们将这些错误主要归因于在早期退出期间通过状态复制处理KV缓存的无效处理。在这项工作中,我们观察到LLM层的计算密集型前馈块的饱和,并提出了FFN-SkipLLM,这是一种新颖的自回归LLM的细粒度跳过策略。更具体地说,FFN-SkipLLM是一种输入自适应的前馈跳过策略,可以跳过LLM的25-30%的FFN块,而在知识密集型生成任务上性能几乎不受影响,而且无需处理KV缓存。我们在MT-Bench、Factoid-QA和可变长度文本摘要等基准测试中进行了广泛的实验和消融,说明了我们的简单易用的方法如何促进更快的自回归解码。
  • 图表
  • 解决问题
    解决问题:该论文旨在解决大型语言模型在生成过程中计算负担过重的问题,提出了一种新的跳过策略以减少计算量。
  • 关键思路
    关键思路:论文提出了一种新的跳过策略(FFN-SkipLLM),可以跳过25-30%的计算块,从而加快生成速度,同时不会对生成质量造成显著影响。
  • 其它亮点
    亮点:论文在多个基准测试数据集上进行了广泛实验和分析,证明了该方法的有效性。该方法简单易用,不需要处理KV缓存,可以在多种生成任务中使用。
  • 相关研究
    相关研究:最近的相关研究主要集中在早期退出和层丢弃策略上,例如Rough-L/BLUE指标。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论