Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding

2025年07月25日
  • 简介
    大语言模型(LLMs)在解码过程中面临硬件效率低下的问题,尤其是在长上下文推理任务中。本文提出了 Step-3,这是一个拥有 3210 亿参数的视觉语言模型(VLM),通过面向硬件的模型与系统协同设计,优化了解码成本。Step-3 的创新主要体现在两个方面:(1)提出了一种全新的“多矩阵分解注意力机制”(MFA),在保持高注意力表达能力的同时,显著减少了 KV 缓存的大小和计算量;(2)引入了“注意力-前馈网络解耦”(AFD)分布式推理系统,将注意力层和前馈网络(FFN)层解耦为专门的子系统。这种协同设计实现了前所未有的成本效率:与 DeepSeek-V3 和 Qwen3 MoE 235B 等模型相比,Step-3 显著降低了理论上的解码成本,且在上下文更长时优势更加明显。Step-3 在每个 token 解码时激活了 380 亿参数(超过 DeepSeek-V3 和 Qwen3 MoE 235B),证明了与硬件匹配的注意力计算密度、MoE 的稀疏性以及 AFD 是实现成本效益的关键因素。我们在 DeepSeek-V3 优势场景下与其进行了直接对比。在 Hopper 架构 GPU 上的实现,在 4K 上下文、FP8 精度、无 MTP 的条件下,每 GPU 的解码吞吐量最高达到每秒 4,039 个 token,满足 50 毫秒 TPOT 的 SLA 要求。这高于 DeepSeek-V3 在相同设置下的 2,324 个 token,为大语言模型解码树立了新的帕累托最优前沿。
  • 图表
  • 解决问题
    论文旨在解决大语言模型(LLMs)在解码阶段硬件效率低的问题,尤其是在长上下文推理任务中的解码成本问题。这是一个当前大模型部署和应用中的关键瓶颈问题。
  • 关键思路
    论文提出了Step-3模型,通过硬件感知的模型-系统协同设计来最小化解码成本。其核心创新包括:1)多矩阵分解注意力机制(MFA),显著减少KV缓存大小和计算量;2)注意力-前馈网络解耦(AFD),将注意力和FFN层解耦为专用子系统以提升分布式推理效率。
  • 其它亮点
    1. 在保持高注意力表达能力的同时,显著降低理论上的解码成本。 2. 通过实验验证,在Hopper GPU上实现每秒4039个token的解码吞吐量,优于DeepSeek-V3的2324 token/s。 3. 展示了硬件对齐的注意力计算密度、MoE稀疏性和AFD设计对成本效益的关键作用。 4. 论文在长上下文场景中表现更优,表明其设计特别适合处理复杂任务。 5. 虽然激活参数更高(38B/Token),但成本仍低于现有模型,显示其设计的有效性。
  • 相关研究
    1. DeepSeek-V3: 一种高性能语言模型,在解码效率方面已有优化。 2. Qwen3 MoE 235B: 基于混合专家(MoE)架构的大语言模型。 3. 其他相关研究包括注意力机制优化(如FlashAttention)、KV缓存压缩技术、以及分布式推理系统设计。 4. 近期研究趋势包括硬件感知模型架构设计、低精度计算(如FP8)、以及针对GPU架构的推理吞吐优化方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论