Inference Performance Optimization for Large Language Models on CPUs

2024年07月10日
  • 简介
    大型语言模型(LLMs)在各种任务中表现出了卓越的性能和广泛的潜力。然而,在低资源环境中部署高性能的LLMs引起了业界的重视。当GPU硬件资源有限时,我们可以探索在CPU上的替代选项。为了减轻财务负担和缓解硬件资源所带来的限制,优化推理性能是必要的。在本文中,我们介绍了一个易于部署的推理性能优化解决方案,旨在加速CPU上的LLMs。在这个解决方案中,我们实现了一种有效的方法来减少KV缓存大小,同时确保精度。我们提出了一种分布式推理优化方法,并基于oneAPI Collective Communications Library实现了它。此外,我们还提出了针对CPU上LLMs的优化方法,并为最常用的模型进行了定制优化。代码已在https://github.com/intel/xFasterTransformer上开源。
  • 作者讲解
  • 图表
  • 解决问题
    如何在CPU上加速低资源环境下的LLMs推理性能?
  • 关键思路
    通过减少KV缓存大小和分布式推理优化来加速LLMs在CPU上的推理性能。
  • 其它亮点
    论文提出了一个易于部署的推理性能优化解决方案,基于oneAPI Collective Communications Library实现了分布式推理优化。针对常用模型进行了优化,并开源了代码。
  • 相关研究
    与该论文相关的研究包括:Efficient Transformers: A Survey, Optimal Subarchitecture Extraction for Transformers via Implicit Differentiation等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问