- 简介随着现代大型语言模型(LLMs)在各行各业的普及,这些模型的推理服务也在不断扩展。考虑到现代LLMs的高计算和内存需求,越来越多的顶级GPU被部署来服务这些模型。能源可用性已成为数据中心扩展以服务这些模型的最大挑战。本文提出了在性能SLOs下将能源效率作为LLM服务的主要目标所带来的权衡。我们表明,根据输入、模型和服务级别协议,LLM推理提供者有几个旋钮可用于提高能源效率。我们表征了这些旋钮对延迟、吞吐量以及能源的影响。通过探索这些权衡,我们提供了有价值的见解,以在不影响性能的情况下优化能源使用,从而为数据中心环境中可持续和具有成本效益的LLM部署铺平了道路。
- 图表
- 解决问题能源可持续性是大规模语言模型推理服务面临的最大挑战之一,本文旨在探讨在性能SLOs的前提下,将能源效率作为LLM推理服务的主要目标所带来的权衡和解决方案。
- 关键思路本文通过探索不同的参数调节,研究它们对延迟、吞吐量和能源的影响,以提供优化能源使用的有价值见解。
- 其它亮点本文提供了在保证性能的前提下优化能源使用的方法,为大规模语言模型在数据中心环境中的部署提供了可持续和经济有效的途径。实验使用了不同的数据集和开源代码,值得深入研究。
- 相关研究包括:《Deep Learning for Energy-Efficient Datacenters: A Review》、《Energy-efficient Deep Learning: A Review》等。
沙发等你来抢
去评论
评论
沙发等你来抢