- 简介大型语言模型(LLMs)在各种任务中表现出了卓越的性能和广泛的潜力。然而,在低资源环境中部署高性能的LLMs引起了业界的重视。当GPU硬件资源有限时,我们可以探索在CPU上的替代选项。为了减轻财务负担和缓解硬件资源所带来的限制,优化推理性能是必要的。在本文中,我们介绍了一个易于部署的推理性能优化解决方案,旨在加速CPU上的LLMs。在这个解决方案中,我们实现了一种有效的方法来减少KV缓存大小,同时确保精度。我们提出了一种分布式推理优化方法,并基于oneAPI Collective Communications Library实现了它。此外,我们还提出了针对CPU上LLMs的优化方法,并为最常用的模型进行了定制优化。代码已在https://github.com/intel/xFasterTransformer上开源。
-
- 图表
- 解决问题如何在CPU上加速低资源环境下的LLMs推理性能?
- 关键思路通过减少KV缓存大小和分布式推理优化来加速LLMs在CPU上的推理性能。
- 其它亮点论文提出了一个易于部署的推理性能优化解决方案,基于oneAPI Collective Communications Library实现了分布式推理优化。针对常用模型进行了优化,并开源了代码。
- 与该论文相关的研究包括:Efficient Transformers: A Survey, Optimal Subarchitecture Extraction for Transformers via Implicit Differentiation等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流