Efficient Interactive LLM Serving with Proxy Model-based Sequence Length Prediction

简介

大型语言模型（LLMs）正在推动各个领域的新一波交互式人工智能应用，但由于生成模型自回归特性导致执行时间不可预测，因此高效地处理LLM推理请求是具有挑战性的。现有的LLM服务系统采用先到先服务（FCFS）调度，存在头部阻塞问题。为了解决LLMs的非确定性特性并实现高效的交互式LLM服务，我们提出了一种短作业优先（SSJF）调度器，它使用轻量级代理模型来预测LLM输出序列长度。我们的开源SSJF实现不需要更改内存管理或批处理策略。在实际数据集和生产工作负载跟踪上的评估表明，与FCFS调度器相比，在无批处理、动态批处理和连续批处理设置下，SSJF可以将平均作业完成时间缩短30.5-39.6％，吞吐量提高2.2-3.6倍。
图表
解决问题

解决LLM推理请求中的非确定性执行时间问题，提高交互式LLM服务效率。
关键思路

提出基于轻量级代理模型的预测和短作业优先的调度器，不需要更改内存管理或批处理策略。
其它亮点

论文的方案在真实数据集和生产工作负载跟踪中表现出平均作业完成时间降低30.5-39.6％，吞吐量提高2.2-3.6倍的优异性能。同时，该方案的实现是开源的。
相关研究

相关研究包括LLM推理的内存管理和批处理优化、基于预测的作业调度、多任务学习等。