LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Keivan Alizadeh ,
Iman Mirzadeh ,
Dmitry Belenko ,
Karen Khatamifard ,
Minsik Cho ,
Carlo C Del Mundo ,
Mohammad Rastegari ,
Mehrdad Farajtabar
2023年12月12日
  • 简介
    大型语言模型(LLMs)是现代自然语言处理的核心,能在各种任务中提供卓越的性能。然而,它们的计算和内存要求很高,尤其是对于内存有限的设备而言,这是一个挑战。本文解决了超出可用DRAM容量的LLMs的高效运行问题,方法是将模型参数存储在闪存上,但根据需要将其带到DRAM上。我们的方法涉及构建一个与闪存行为协调的推理成本模型,指导我们在两个关键领域进行优化:减少从闪存传输的数据量和以更大、更连续的块读取数据。在这个基于闪存的框架内,我们引入了两个主要技术。第一,"窗口化"策略性地减少数据传输,通过重复使用先前激活的神经元;第二,"行列捆绑"针对闪存的顺序数据访问优势,增加从闪存读取的数据块大小。这些方法共同使得模型能够在可用DRAM容量的两倍的情况下运行,并且与CPU和GPU中的朴素加载方法相比,推理速度分别提高了4-5倍和20-25倍。我们集成了稀疏感知、上下文自适应加载和面向硬件的设计,为在内存有限的设备上有效推理LLMs铺平了道路。
  • 图表
  • 解决问题
    解决在内存有限的设备上高效运行超出可用DRAM容量的大型语言模型的问题。
  • 关键思路
    通过将模型参数存储在闪存上,但按需将其带到DRAM上来有效地运行大型语言模型。
  • 其它亮点
    通过构建推理成本模型,指导我们在两个关键领域进行优化:减少从闪存传输的数据量和读取更大、更连续的数据块;引入窗口化和行列捆绑等技术,使模型可以在可用DRAM容量的两倍大小上运行,并且相对于CPU和GPU的朴素加载方法,推理速度分别增加了4-5倍和20-25倍。
  • 相关研究
    最近的相关研究包括《Efficient Transformer Inference on CPU》和《Revisiting Few-sample BERT Fine-tuning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论