CQIL: Inference Latency Optimization with Concurrent Computation of Quasi-Independent Layers

2024年04月10日
  • 简介
    目前,快速增长的大规模语言模型在几乎所有自然语言处理任务上都表现出前所未有的性能。然而,大型语言模型的有效性依赖于呈指数增长的参数数量。巨大的计算复杂性导致了高推理延迟,对用户体验产生了负面影响。现有的提高推理效率的方法,如张量并行和量化,旨在减少每层计算延迟,但忽略了由于层数的累积延迟。最近关于通过层删除来减少累积延迟的研究,然而,导致了显著的性能下降。受相邻层输入相似性的启发,我们提出了识别准独立层的方法,这些层可以同时计算以显著减少推理延迟。我们还引入了一种旁路技术来减轻信息丢失的影响。对LLaMA模型的实证实验证实,准独立层的并发计算(CQIL)可以将延迟降低高达48.3%,同时保持接近的性能水平。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决大型语言模型中参数数量爆炸导致的推理延迟问题。
  • 关键思路
    通过识别准独立层并进行并发计算,显著减少推理延迟。
  • 其它亮点
    论文提出的CQIL方法可以在LLaMA-33B模型上将推理延迟降低高达48.3%,同时保持接近原有性能水平。实验使用了LLaMA数据集,并提供了开源代码。
  • 相关研究
    相关研究包括张量并行和量化等方法以减少层计算延迟,以及最近的一些通过删除层来减少累计延迟的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问