- 简介注意力-前馈网络解耦(AFD)是一种新兴的大语言模型(LLM)解码架构,它将状态密集、以键值缓存(KV Cache)为主导的注意力(Attention)计算,与无状态、计算密集型的前馈网络(FFN)计算分离开来,并通过每一步(per-step)通信进行连接。尽管AFD支持内存资源与计算资源的独立扩展,但其性能对注意力模块与前馈网络模块之间的资源配置比例(即A/F比)极为敏感:配置不当将导致每一步解码过程发生阻塞,并引发高昂的设备空闲时间。我们构建了一个可解析的分析框架,用于在“r个注意力单元配1个前馈网络单元”($r$A-$1$F)拓扑结构下合理确定AFD计算单元组(bundle)的规模。该框架面临的核心难点在于:注意力侧的计算负载具有非平稳性——随着解码步数增加,上下文长度持续增长,且请求以随机长度不断流入;而前馈网络侧的计算负载则在批处理(batch)聚合后保持相对稳定。基于一个概率化的工作负载模型,我们推导出一组闭式表达式(closed-form rules),用以确定全局系统中单位实例平均吞吐量最大化的最优A/F比例。我们进一步开发了一个基于真实轨迹校准的AFD仿真器,对理论结果进行了验证:在各类工作负载下,理论推导所得的最优A/F比例与仿真所得最优值的偏差均控制在10%以内,且能持续显著降低设备空闲时间。
-
- 图表
- 解决问题LLM解码过程中,Attention(状态重、KV缓存主导)与FFN(无状态、计算密集)计算特性差异显著,传统同构部署导致资源错配;AFD架构虽支持二者分离扩展,但其性能对Attention/FFN资源配比(A/F ratio)高度敏感——配比失当引发步级阻塞和设备空闲,亟需理论指导的精准资源 sizing 方法。这是一个面向新型解耦架构的系统级资源协同优化新问题。
- 关键思路提出首个可解析的分析框架,建模rA-1F拓扑下非平稳Attention负载(token context动态增长+请求长度随机到达)与平稳FFN负载(批处理聚合后恒定)的联合排队行为;基于概率工作负载模型,导出最大化系统平均吞吐量/实例的闭式最优A/F比规则,突破了以往依赖启发式调优或黑盒仿真无法提供理论保证的局限。
- 其它亮点• 构建trace-calibrated AFD仿真器,使用真实LLM服务轨迹(如ShareGPT、Alpaca)校准;• 理论最优A/F比在多 workload 下与仿真最优解误差<10%,显著降低Attention侧等待延迟与FFN侧空闲时间;• 未开源代码(论文未提及),但模型假设清晰、推导完整,为后续硬件-aware调度、动态A/F弹性伸缩、多租户隔离等方向奠定基础;• 实验覆盖长尾请求分布、不同batch size与context length组合,验证鲁棒性。
- • 'vLLM: Easy, Fast and Efficient LLM Serving with PagedAttention' (OSDI'23) —— 优化KV缓存管理,但未解耦计算;• 'TensorRT-LLM: Optimized Inference for LLMs' (NVIDIA Tech Report) —— 硬件定制化融合kernel,隐含同构假设;• 'Serving Large Language Models with Heterogeneous Hardware' (MLSys'24) —— 经验性异构部署,缺乏分析模型;• 'FlashAttention-3' (arXiv'24) —— 加速Attention,但未解决FFN-Attention资源解耦配比问题。


提问交流