明日直播｜高效推理服务，Attention-FFN分离架构的最优资源配置理论

报告主题：

报告日期：03月24日（周二） 10:30-11:30

工作简介：

本次报告将由香港科技大学周子杰进行分享。

随着大语言模型（LLM）规模持续扩大，高效推理服务成为系统研究的核心挑战。当前业界已广泛采用Prefill-Decode分离（PD Disaggregation）架构，将输入处理阶段与逐词生成阶段分置于不同硬件。在此基础上，更细粒度的Attention-FFN分离（AFD）架构近年来受到广泛关注：将有状态、KV Cache主导的Attention计算与无状态、计算密集的FFN计算部署到不同硬件实例上，从而实现内存与算力的独立扩展。

然而，AFD系统的性能对Attention实例与FFN实例的数量比例（记为r）极为敏感：比例过小导致FFN空等输入，比例过大导致Attention排队等待FFN，均引发严重的资源浪费。遗憾的是，现有系统普遍依赖经验搜索确定r，缺乏理论指导。本文正是为填补这一空白而生。

主要贡献

1. 概率工作负载模型

论文构建了一套严格的分析框架，捕捉AFD服务中的随机动态特性，包括微批次流水线、同步屏障以及持续批处理中的请求补充机制。核心观察在于：Attention侧的工作量是非平稳的——每个解码步骤后KV Cache不断增长，同时已完成请求被随机长度的新请求所替换。通过对每个槽位KV Cache负载的非平稳演化进行建模，论文推导出《水平均值token负载》（horizon-average token load），准确刻画了时变的Attention计算代价。

2. 闭合解析最优A/F比例

论文推导出最优Attention-to-FFN比例r*的解析表达式，并识别出三种工作区间：

Attention瓶颈区间：吞吐量随r单调递增，最优点在Attention与FFN延迟相等处。
通信瓶颈区间：通信延迟主导系统，在实际硬件配置下通常可通过流水线掩盖。
FFN瓶颈区间：r继续增大导致FFN饱和，吞吐量开始下降，最优点由批聚合收益与FFN拥塞代价的权衡决定。

最终最优比例为三个关键值的最大值：(i) Attention与FFN延迟均衡点rA，(ii) 通信均衡点rC，(iii) FFN瓶颈区间吞吐量峰值点rpeak = sqrt(βF / (αF·B))，其中βF和αF分别为FFN的固定开销与线性系数，B为微批次大小。

3. 仿真验证

论文开发了一套离散事件AFD仿真器，在多种工作负载配置下系统验证理论预测。结果表明：理论最优r*与仿真最优值的相对误差在10%以内，且理论框架在批次大小、上下文长度等参数的消融实验中均能准确追踪系统行为。

三、核心创新点

本文的核心理论创新在于利用几何分布的无记忆性，将非平稳的Attention工作量分析转化为可处理的马尔可夫动态系统，从而推导出精确的闭合解析式。具体而言：

将LLM解码长度建模为几何分布，符合自回归生成【每步以固定概率结束】的本质，并在多个生产级LLM服务trace上得到实证验证。
推导出期望token负载E[Tk]从零出发、随步数增长并收敛至稳态值B·μD的精确公式，再通过对整个服务水平线求均值得到代表性负载T-bar。
将线性延迟模型（基于roofline模型的Attention内存带宽界、FFN算力界、通信带宽界）与概率工作负载分析相结合，得到端到端可解释的最优配比公式。

对未来实际部署的启示

论文的消融实验揭示了若干具有重要工程价值的规律：

最优r*随批次大小B和上下文长度（μP + μD）单调递增：更大的批次或更长的上下文均加重Attention侧负担，需要更多Attention实例来平衡FFN。这为动态调整实例配比提供了理论依据。
实用配置公式：只需知道硬件的αA、αF、βF参数（可通过线性回归实测获得）以及业务的平均prefill/decode长度，即可直接计算r*，无需大规模搜索。论文还提供了基于DeepSeek-V3架构在华为昇腾910C上的参数标定案例，具有直接的工程参考价值。
大r值下的负载均衡问题：当r较大时，多个Attention实例间的随机负载不均衡（straggler效应）会导致实际吞吐量低于理论预测（偏差约15%@r=32）。这里也宣传一下我们今年的另一篇文章，基本解决了通过路由来实现DP负载均衡的问题。https://arxiv.org/abs/2601.17855
上下文长度越长、峰值吞吐越低：长上下文场景下每个输出token的Attention代价更高，系统整体效率受限，提示在长上下文服务中需配合更高效的KV Cache管理机制（如稀疏Attention、KV压缩等）共同优化。

总体而言，本文为AFD系统的资源配置从【经验搜索】走向【理论驱动】提供了坚实基础，对工业界大规模LLM推理集群的硬件规划与动态调度具有直接指导意义。

报告嘉宾：

周子杰，香港科技大学工业工程与决策分析学系（IEDA）助理教授。2025年获麻省理工学院（MIT）运筹学中心（ORC）及信息与决策系统实验室（LIDS）博士学位，2021年获普渡大学荣誉数学与荣誉统计学学士学位。他的研究方向是通过应用数学来优化人工智能系统——包括提升大语言模型（LLM）推理的速度与成本效率，以及芯片设计优化。他曾在微软研究院及甲骨文公司实习。他入选了华为"优秀青年学者"计划，并获得华为科研资助。

电脑端观看地址

更多热门活动：

内容中包含的图片若涉及版权问题，请及时与我们联系删除

明日直播｜高效推理服务，Attention-FFN分离架构的最优资源配置理论

评论列表

评论