Inference Performance Optimization for Large Language Models on CPUs

简介

大型语言模型(LLMs)在各种任务中表现出了卓越的性能和广泛的潜力。然而，在低资源环境中部署高性能的LLMs引起了业界的重视。当GPU硬件资源有限时，我们可以探索在CPU上的替代选项。为了减轻财务负担和缓解硬件资源所带来的限制，优化推理性能是必要的。在本文中，我们介绍了一个易于部署的推理性能优化解决方案，旨在加速CPU上的LLMs。在这个解决方案中，我们实现了一种有效的方法来减少KV缓存大小，同时确保精度。我们提出了一种分布式推理优化方法，并基于oneAPI Collective Communications Library实现了它。此外，我们还提出了针对CPU上LLMs的优化方法，并为最常用的模型进行了定制优化。代码已在https://github.com/intel/xFasterTransformer上开源。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在CPU上加速低资源环境下的LLMs推理性能？
关键思路

通过减少KV缓存大小和分布式推理优化来加速LLMs在CPU上的推理性能。
其它亮点

论文提出了一个易于部署的推理性能优化解决方案，基于oneAPI Collective Communications Library实现了分布式推理优化。针对常用模型进行了优化，并开源了代码。
相关研究

与该论文相关的研究包括：Efficient Transformers: A Survey, Optimal Subarchitecture Extraction for Transformers via Implicit Differentiation等。

Inference Performance Optimization for Large Language Models on CPUs

提问交流

提问交流