Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference

2024年03月14日
  • 简介
    变形金刚已成为大型语言模型(LLMs)的支柱,但由于需要在内存中存储过去标记的键值表示的缓存,其大小随输入序列长度和批处理大小线性增长,因此生成仍然效率低下。为解决这个问题,我们提出了动态内存压缩(DMC),一种用于在线推理时对键值缓存进行压缩的方法。最重要的是,模型学会在不同的头和层中应用不同的压缩率。我们将预训练的LLMs(如Llama 2(7B,13B和70B))重新装配到DMC变形金刚中,从而在NVIDIA H100 GPU上实现了高达约3.7倍的自回归推理吞吐量增加。DMC通过在原始数据的微不足道的百分比上持续预训练来应用,而不添加任何额外的参数。我们发现,DMC在高达4倍的缓存压缩下保持了原始的下游性能,优于上训练的分组查询注意力(GQA)。GQA和DMC甚至可以结合起来获得复合增益。因此,DMC适合在任何给定的内存预算内适应更长的上下文和更大的批处理。
  • 图表
  • 解决问题
    论文旨在解决大语言模型(LLMs)生成效率低下的问题,提出了一种在线压缩缓存的方法,称为Dynamic Memory Compression(DMC)。
  • 关键思路
    DMC方法能够在推理时对键值缓存进行压缩,且模型能够学习在不同头和层应用不同的压缩率。通过在少量原始数据上持续预训练,将DMC应用于预训练的LLMs中,可以在不增加任何参数的情况下实现高达3.7倍的自回归推理吞吐量提升。
  • 其它亮点
    论文使用了预训练的LLMs Llama 2(7B、13B和70B),并在保持原始下游性能的情况下,实现了高达4倍缓存压缩的DMC,优于up-trained grouped-query attention(GQA)。此外,GQA和DMC还可以组合使用以获得更大的收益。
  • 相关研究
    最近的相关研究包括《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Scaling Laws for Neural Language Models》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论