SLO-aware GPU Frequency Scaling for Energy Efficient LLM Inference Serving

2024年08月05日
  • 简介
    随着大型语言模型(LLMs)的普及,它们对耗电量巨大的GPU的依赖越来越高,引起了环境和经济方面的关注。推理占据了LLM工作负载的主导地位,对于提供者来说,这是一个关键的挑战:在确保最佳用户体验的服务级别目标(SLOs)下,最小化能源成本。在本文中,我们提出了一个名为\textit{throttLL'eM}的框架,通过使用实例和GPU频率缩放来降低能源消耗,同时满足SLOs。 \textit{throttLL'eM}具有预测未来KV缓存使用和批处理大小的机制。利用一个接收这些预测作为输入的机器学习(ML)模型,\textit{throttLL'eM}在迭代级别上管理性能,以减少频率和实例大小来满足SLOs。我们展示了所提出的ML模型达到了大于0.97的$R^2$分数,并且平均每秒误判不到1个迭代的性能。在LLM推理跟踪的实验结果表明,与NVIDIA的Triton服务器相比,在SLOs下,\textit{throttLL'eM}能够实现高达43.8%的能源消耗降低,能源效率提高至少$1.71\times$。
  • 图表
  • 解决问题
    降低大型语言模型推理的能耗成本,同时保证用户体验
  • 关键思路
    使用实例和GPU频率缩放的方式,通过预测未来的KV缓存使用和批次大小,降低能耗并满足SLO
  • 其它亮点
    提出了throttLL'eM框架,使用机器学习模型管理性能,实现降低能耗的同时满足SLO;在实验中,throttLL'eM相较于NVIDIA的Triton server能够实现高达43.8%的能耗降低和至少1.71倍的能效提升;机器学习模型的预测性能较好,R^2得分大于0.97,平均误差不到1个迭代/秒
  • 相关研究
    近期在大型语言模型推理领域的相关研究包括:1. Efficient Transformers: A Survey of Learning Paradigms (2021);2. Accelerating Inference for Large Transformer-Based Language Models (2021);3. Energy-efficient Large-scale Language Model Inference with the T5 Model (2021)
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论