
报告主题:
报告日期:03月24日(周二) 10:30-11:30
工作简介:
本次报告将由香港科技大学周子杰进行分享。
随着大语言模型(LLM)规模持续扩大,高效推理服务成为系统研究的核心挑战。当前业界已广泛采用Prefill-Decode分离(PD Disaggregation)架构,将输入处理阶段与逐词生成阶段分置于不同硬件。在此基础上,更细粒度的Attention-FFN分离(AFD)架构近年来受到广泛关注:将有状态、KV Cache主导的Attention计算与无状态、计算密集的FFN计算部署到不同硬件实例上,从而实现内存与算力的独立扩展。
然而,AFD系统的性能对Attention实例与FFN实例的数量比例(记为r)极为敏感:比例过小导致FFN空等输入,比例过大导致Attention排队等待FFN,均引发严重的资源浪费。遗憾的是,现有系统普遍依赖经验搜索确定r,缺乏理论指导。本文正是为填补这一空白而生。
主要贡献
1. 概率工作负载模型
论文构建了一套严格的分析框架,捕捉AFD服务中的随机动态特性,包括微批次流水线、同步屏障以及持续批处理中的请求补充机制。核心观察在于:Attention侧的工作量是非平稳的——每个解码步骤后KV Cache不断增长,同时已完成请求被随机长度的新请求所替换。通过对每个槽位KV Cache负载的非平稳演化进行建模,论文推导出《水平均值token负载》(horizon-average token load),准确刻画了时变的Attention计算代价。
2. 闭合解析最优A/F比例
论文推导出最优Attention-to-FFN比例r*的解析表达式,并识别出三种工作区间:
Attention瓶颈区间:吞吐量随r单调递增,最优点在Attention与FFN延迟相等处。 通信瓶颈区间:通信延迟主导系统,在实际硬件配置下通常可通过流水线掩盖。 FFN瓶颈区间:r继续增大导致FFN饱和,吞吐量开始下降,最优点由批聚合收益与FFN拥塞代价的权衡决定。
最终最优比例为三个关键值的最大值:(i) Attention与FFN延迟均衡点rA,(ii) 通信均衡点rC,(iii) FFN瓶颈区间吞吐量峰值点rpeak = sqrt(βF / (αF·B)),其中βF和αF分别为FFN的固定开销与线性系数,B为微批次大小。
3. 仿真验证
论文开发了一套离散事件AFD仿真器,在多种工作负载配置下系统验证理论预测。结果表明:理论最优r*与仿真最优值的相对误差在10%以内,且理论框架在批次大小、上下文长度等参数的消融实验中均能准确追踪系统行为。
三、核心创新点
本文的核心理论创新在于利用几何分布的无记忆性,将非平稳的Attention工作量分析转化为可处理的马尔可夫动态系统,从而推导出精确的闭合解析式。具体而言:
将LLM解码长度建模为几何分布,符合自回归生成【每步以固定概率结束】的本质,并在多个生产级LLM服务trace上得到实证验证。 推导出期望token负载E[Tk]从零出发、随步数增长并收敛至稳态值B·μD的精确公式,再通过对整个服务水平线求均值得到代表性负载T-bar。 将线性延迟模型(基于roofline模型的Attention内存带宽界、FFN算力界、通信带宽界)与概率工作负载分析相结合,得到端到端可解释的最优配比公式。
对未来实际部署的启示
论文的消融实验揭示了若干具有重要工程价值的规律:
最优r*随批次大小B和上下文长度(μP + μD)单调递增:更大的批次或更长的上下文均加重Attention侧负担,需要更多Attention实例来平衡FFN。这为动态调整实例配比提供了理论依据。 实用配置公式:只需知道硬件的αA、αF、βF参数(可通过线性回归实测获得)以及业务的平均prefill/decode长度,即可直接计算r*,无需大规模搜索。论文还提供了基于DeepSeek-V3架构在华为昇腾910C上的参数标定案例,具有直接的工程参考价值。 大r值下的负载均衡问题:当r较大时,多个Attention实例间的随机负载不均衡(straggler效应)会导致实际吞吐量低于理论预测(偏差约15%@r=32)。这里也宣传一下我们今年的另一篇文章,基本解决了通过路由来实现DP负载均衡的问题。https://arxiv.org/abs/2601.17855 上下文长度越长、峰值吞吐越低:长上下文场景下每个输出token的Attention代价更高,系统整体效率受限,提示在长上下文服务中需配合更高效的KV Cache管理机制(如稀疏Attention、KV压缩等)共同优化。
总体而言,本文为AFD系统的资源配置从【经验搜索】走向【理论驱动】提供了坚实基础,对工业界大规模LLM推理集群的硬件规划与动态调度具有直接指导意义。
报告嘉宾:
周子杰,香港科技大学工业工程与决策分析学系(IEDA)助理教授。2025年获麻省理工学院(MIT)运筹学中心(ORC)及信息与决策系统实验室(LIDS)博士学位,2021年获普渡大学荣誉数学与荣誉统计学学士学位。他的研究方向是通过应用数学来优化人工智能系统——包括提升大语言模型(LLM)推理的速度与成本效率,以及芯片设计优化。他曾在微软研究院及甲骨文公司实习。他入选了华为"优秀青年学者"计划,并获得华为科研资助。



内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢