Theoretically Optimal Attention/FFN Ratios in Disaggregated LLM Serving

向作者提问

NEW

简介

注意力-前馈网络解耦（AFD）是一种新兴的大语言模型（LLM）解码架构，它将状态密集、以键值缓存（KV Cache）为主导的注意力（Attention）计算，与无状态、计算密集型的前馈网络（FFN）计算分离开来，并通过每一步（per-step）通信进行连接。尽管AFD支持内存资源与计算资源的独立扩展，但其性能对注意力模块与前馈网络模块之间的资源配置比例（即A/F比）极为敏感：配置不当将导致每一步解码过程发生阻塞，并引发高昂的设备空闲时间。我们构建了一个可解析的分析框架，用于在“r个注意力单元配1个前馈网络单元”（$r$A-$1$F）拓扑结构下合理确定AFD计算单元组（bundle）的规模。该框架面临的核心难点在于：注意力侧的计算负载具有非平稳性——随着解码步数增加，上下文长度持续增长，且请求以随机长度不断流入；而前馈网络侧的计算负载则在批处理（batch）聚合后保持相对稳定。基于一个概率化的工作负载模型，我们推导出一组闭式表达式（closed-form rules），用以确定全局系统中单位实例平均吞吐量最大化的最优A/F比例。我们进一步开发了一个基于真实轨迹校准的AFD仿真器，对理论结果进行了验证：在各类工作负载下，理论推导所得的最优A/F比例与仿真所得最优值的偏差均控制在10%以内，且能持续显著降低设备空闲时间。
作者讲解·1
- 讲解视频(1)
- 相关报道
图表
解决问题

LLM解码过程中，Attention（状态重、KV缓存主导）与FFN（无状态、计算密集）计算特性差异显著，传统同构部署导致资源错配；AFD架构虽支持二者分离扩展，但其性能对Attention/FFN资源配比（A/F ratio）高度敏感——配比失当引发步级阻塞和设备空闲，亟需理论指导的精准资源 sizing 方法。这是一个面向新型解耦架构的系统级资源协同优化新问题。
关键思路

提出首个可解析的分析框架，建模rA-1F拓扑下非平稳Attention负载（token context动态增长+请求长度随机到达）与平稳FFN负载（批处理聚合后恒定）的联合排队行为；基于概率工作负载模型，导出最大化系统平均吞吐量/实例的闭式最优A/F比规则，突破了以往依赖启发式调优或黑盒仿真无法提供理论保证的局限。
其它亮点

• 构建trace-calibrated AFD仿真器，使用真实LLM服务轨迹（如ShareGPT、Alpaca）校准；• 理论最优A/F比在多 workload 下与仿真最优解误差<10%，显著降低Attention侧等待延迟与FFN侧空闲时间；• 未开源代码（论文未提及），但模型假设清晰、推导完整，为后续硬件-aware调度、动态A/F弹性伸缩、多租户隔离等方向奠定基础；• 实验覆盖长尾请求分布、不同batch size与context length组合，验证鲁棒性。
相关研究

• 'vLLM: Easy, Fast and Efficient LLM Serving with PagedAttention' (OSDI'23) —— 优化KV缓存管理，但未解耦计算；• 'TensorRT-LLM: Optimized Inference for LLMs' (NVIDIA Tech Report) —— 硬件定制化融合kernel，隐含同构假设；• 'Serving Large Language Models with Heterogeneous Hardware' (MLSys'24) —— 经验性异构部署，缺乏分析模型；• 'FlashAttention-3' (arXiv'24) —— 加速Attention，但未解决FFN-Attention资源解耦配比问题。

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问