SLO-Aware Scheduling for Large Language Model Inferences

2025年04月21日
  • 简介
    大型语言模型(LLMs)已经革新了诸如代码补全、聊天机器人和在线分类等应用。为了提升用户体验,服务等级目标(SLOs)作为评估推理服务能力的关键基准起到了重要作用。在实际应用中,一个推理服务需要处理多种类型的任务,每种任务都有其独特的 SLO。为了确保令人满意的用户体验,在调度过程中应考虑每个请求的独特 SLO。然而,现有的设计缺乏这种考量,导致硬件利用率不足以及性能次优。 本文分析了处理具有不同 SLO 任务的场景,并引入了一种基于模拟退火算法的调度器,该调度器根据请求的 SLO、输入长度和可能的输出长度来决定请求的优先级顺序。作为首个针对多 SLO 场景的专业调度器,这项工作将 SLO 达成率最高提升了 5 倍,并在 Python-Code-23k-ShareGPT 和 ShareGPT_Vicuna_unfiltered 数据集上,相比当前最先进的框架 vLLM 和新框架 LMDeploy,平均延迟降低了 31.6%。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决在多任务推理服务中,不同请求具有不同服务级别目标(SLO)时的调度问题。现有方法未能充分考虑每个请求的独特SLO,导致硬件资源利用率不足和性能下降。这是一个实际应用中的重要问题,但尚未得到充分研究。
  • 关键思路
    论文提出了一种基于模拟退火算法的调度器,该调度器根据请求的SLO、输入长度和可能的输出长度来决定请求的优先级顺序。这是首个专门针对多SLO场景设计的调度器,通过优化任务调度显著提升了SLO达标率和降低了平均延迟。
  • 其它亮点
    实验结果表明,与当前最先进的框架vLLM和LMDeploy相比,该调度器将SLO达标率提高了5倍,并减少了31.6%的平均延迟。实验使用了Python-Code-23k-ShareGPT和ShareGPT_Vicuna_unfiltered两个数据集。此外,论文提供了详细的实验设计,包括对不同输入长度和输出长度的敏感性分析。目前尚不清楚代码是否开源,但未来可以进一步研究如何将该调度器扩展到更复杂的分布式系统中。
  • 相关研究
    最近的相关研究包括:1) vLLM框架,专注于大规模语言模型的高效推理;2) LMDeploy,提供轻量级的语言模型部署方案;3) "Adaptive Scheduling for Heterogeneous Inference Tasks" 提出了适应性调度策略以优化异构任务的推理性能;4) "Resource-Efficient Scheduling for Multi-Tenant Language Models" 研究了多租户场景下的资源调度问题。这些研究共同推动了语言模型推理服务的性能优化,但本论文首次聚焦于多SLO场景下的调度优化。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问