Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters

2026年02月11日
  • 简介
    我们推出了“Step 3.5 Flash”,这是一款稀疏的混合专家(MoE)模型,旨在弥合前沿级智能体(agentic intelligence)能力与计算效率之间的鸿沟。我们在构建智能体时,聚焦于真正关键的两大要素:敏锐的推理能力,以及快速、可靠的执行能力。“Step 3.5 Flash”采用一个参数量达1960亿(196B)的基础模型架构,但在实际推理过程中仅激活其中110亿(11B)参数,从而实现高效推理。该模型通过交替采用“3:1滑动窗口注意力/全注意力机制”以及“多令牌预测(MTP-3)”技术进行优化,显著降低了多轮智能体交互过程中的延迟与计算开销。为达成前沿级智能水平,我们设计了一套可扩展的强化学习框架:该框架将可验证的信号(verifiable signals)与偏好反馈(preference feedback)有机结合,并在大规模离策略(off-policy)训练中保持高度稳定性,从而实现在数学求解、代码生成与工具调用等多领域持续、一致的自我提升。“Step 3.5 Flash”在智能体任务、编程任务与数学任务上均展现出卓越性能:在IMO-AnswerBench基准测试中达到85.4%,在LiveCodeBench-v6(2024年8月—2025年5月数据集)中达86.4%,在tau2-Bench中达88.2%,在支持上下文管理的BrowseComp基准中达69.0%,在Terminal-Bench 2.0中达51.0%,整体表现可媲美GPT-5.2 xHigh、Gemini 3.0 Pro等当前最前沿的大模型。通过重新定义效率边界,“Step 3.5 Flash”为在真实工业场景中部署复杂、高要求的智能体提供了高密度、高性能的基础模型支撑。
  • 作者讲解
  • 图表
  • 解决问题
    如何在保持前沿级智能(尤其在数学推理、代码生成、工具调用等代理任务上)的同时,显著降低推理延迟与计算成本,从而支持工业级实时多轮智能代理的高效部署——这是一个尚未被充分解决的新工程-科学交叉问题,区别于单纯追求参数规模或离线基准分数的传统大模型优化范式。
  • 关键思路
    提出Step 3.5 Flash:一种面向代理(agentic)工作流定制的稀疏MoE架构,核心创新在于三重协同设计——(1)196B总参/11B激活的极致稀疏性;(2)3:1滑动窗口与全注意力交替的动态上下文建模,兼顾长程依赖与低延迟;(3)Multi-Token Prediction (MTP-3) 实现单次前向预测3个token,压缩多轮交互的token级开销;(4)融合可验证信号(如执行结果、形式化证明)与人类偏好反馈的稳定大规模离线强化学习框架,突破传统RLHF在代理任务中样本效率低、策略崩溃的瓶颈。
  • 其它亮点
    在IMO-AnswerBench(85.4%)、LiveCodeBench-v6(86.4%)、tau2-Bench(88.2%)等前沿代理评测中达到GPT-5.2 xHigh和Gemini 3.0 Pro水平;首次将MTP与滑动窗口注意力在MoE中联合优化用于代理延迟敏感场景;实验覆盖真实世界代理挑战:BrowseComp(69.0%,含上下文管理)、Terminal-Bench 2.0(51.0%,终端交互);论文未明确提及开源计划,但强调‘工业可部署’,暗示可能提供量化推理SDK;值得深入的方向包括:MTP的理论收敛性分析、可验证信号的自动构造泛化、以及MoE专家路由在跨工具调用中的动态适应机制。
  • 相关研究
    DeepSeek-V3(2024):长上下文MoE与工具调用联合优化;Qwen2.5-MoE(2024):细粒度专家稀疏控制;Llama-3.1-MoE(Meta, 2024):通用MoE基座;OpenHands(2024):开源代理框架与评测基准;AgentBench(2023)与WebArena(2023):早期代理评测基准;GRPO(2024):基于轨迹奖励的离线RL代理训练方法;SWE-bench Lite(2024):代码修复代理评测子集。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问