NEW

Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters

Ailin Huang ,

Ang Li ,

Aobo Kong ,

Bin Wang ,

Binxing Jiao ,

Bo Dong ,

Bojun Wang ,

Boyu Chen ,

Brian Li ,

Buyun Ma ,

Chang Su ,

Changxin Miao ,

Changyi Wan ,

Chao Lou ,

Chen Hu ,

Chen Xu ,

Chenfeng Yu ,

Chengting Feng ,

Chengyuan Yao ,

Chunrui Han ,

Dan Ma ,

Dapeng Shi ,

Daxin Jiang ,

Dehua Ma ,

Deshan Sun ,

Di Qi ,

Enle Liu ,

Fajie Zhang ,

Fanqi Wan ,

Guanzhe Huang ,

Gulin Yan ,

Guoliang Cao ,

Guopeng Li ,

Han Cheng ,

Hangyu Guo ,

Hanshan Zhang ,

Hao Nie ,

Haonan Jia ,

Haoran Lv ,

Hebin Zhou ,

Hekun Lv ,

Heng Wang ,

Heung-Yeung Shum ,

Hongbo Huang ,

Hongbo Peng ,

Hongyu Zhou ,

Hongyuan Wang ,

Houyong Chen ,

Huangxi Zhu ,

Huimin Wu ,

Huiyong Guo ,

Jia Wang ,

Jian Zhou ,

Jianjian Sun ,

Jiaoren Wu ,

Jiaran Zhang ,

Jiashu Lv ,

Jiashuo Liu ,

Jiayi Fu ,

Jiayu Liu ,

Jie Cheng ,

Jie Luo ,

Jie Yang ,

Jie Zhou ,

Jieyi Hou ,

Jing Bai ,

Jingcheng Hu ,

Jingjing Xie ,

Jingwei Wu ,

Jingyang Zhang ,

Jishi Zhou ,

Junfeng Liu ,

Junzhe Lin ,

Ka Man Lo ,

Kai Liang ,

Kaibo Liu ,

Kaijun Tan ,

Kaiwen Yan ,

Kaixiang Li ,

Kang An ,

Kangheng Lin ,

Lei Yang ,

Liang Lv ,

Liang Zhao ,

Liangyu Chen ,

Lieyu Shi ,

Liguo Tan ,

Lin Lin ,

Lina Chen ,

Luck Ma ,

Mengqiang Ren ,

Michael Li ,

Ming Li ,

Mingliang Li ,

Mingming Zhang ,

Mingrui Chen ,

Mitt Huang ,

Na Wang ,

Peng Liu ,

Qi Han ,

Qian Zhao ,

Qinglin He ,

Qinxin Du ,

Qiuping Wu ,

Quan Sun ,

Rongqiu Yang ,

Ruihang Miao ,

Ruixin Han ,

Ruosi Wan ,

Ruyan Guo ,

Shan Wang ,

Shaoliang Pang ,

Shaowen Yang ,

Shengjie Fan ,

Shijie Shang ,

Shiliang Yang ,

Shiwei Li ,

Shuangshuang Tian ,

Siqi Liu ,

Siye Wu ,

Siyu Chen ,

Song Yuan ,

Tiancheng Cao ,

Tianchi Yue ,

Tianhao Cheng ,

Tianning Li ,

Tingdan Luo ,

Wang You ,

Wei Ji ,

Wei Yuan ,

Wei Zhang ,

Weibo Wu ,

Weihao Xie ,

Wen Sun ,

Wenjin Deng ,

Wenzhen Zheng ,

Wuxun Xie ,

Xiangfeng Wang ,

Xiangwen Kong ,

Xiangyu Liu ,

Xiangyu Zhang ,

Xiaobo Yang ,

Xiaojia Liu ,

Xiaolan Yuan ,

Xiaoran Jiao ,

Xiaoxiao Ren ,

Xiaoyun Zhang ,

Xin Li ,

Xin Liu ,

Xin Wu ,

Xing Chen ,

Xingping Yang ,

Xinran Wang ,

Xu Zhao ,

Xuan He ,

Xuanti Feng ,

Xuedan Cai ,

Xuqiang Zhou ,

Yanbo Yu ,

Yang Li ,

Yang Xu ,

Yanlin Lai ,

Yanming Xu ,

Yaoyu Wang ,

Yeqing Shen ,

Yibo Zhu ,

Yichen Lv ,

Yicheng Cao ,

Yifeng Gong ,

Yijing Yang ,

Yikun Yang ,

Yin Zhao ,

Yingxiu Zhao ,

Yinmin Zhang ,

Yitong Zhang ,

Yixuan Zhang ,

Yiyang Chen ,

Yongchi Zhao ,

Yongshen Long ,

Yongyao Wang ,

Yousong Guan ,

Yu Zhou ,

Yuang Peng ,

Yuanhao Ding ,

Yuantao Fan ,

Yuanwei Lu ,

Yuanzhen Yang ,

Yuchu Luo ,

Yudi Zhao ,

Yue Peng ,

Yueqiang Lin ,

Yufan Lu ,

Yuling Zhao ,

Yunzhou Ju ,

Yurong Zhang ,

Yusheng Li ,

Yuxiang Yang ,

Yuyang Chen ,

Yuzhu Cai ,

Zejia Weng ,

Zetao Hong ,

Zexi Li ,

Zhe Xie ,

Zheng Ge ,

Zheng Gong ,

Zheng Zeng ,

Zhenyi Lu ,

Zhewei Huang ,

Zhichao Chang ,

Zhiguo Huang ,

Zhiheng Hu ,

Zidong Yang ,

Zili Wang ,

Ziqi Ren ,

Zixin Zhang ,

Zixuan Wang

热度 50

2026年02月11日

简介

我们推出了“Step 3.5 Flash”，这是一款稀疏的混合专家（MoE）模型，旨在弥合前沿级智能体（agentic intelligence）能力与计算效率之间的鸿沟。我们在构建智能体时，聚焦于真正关键的两大要素：敏锐的推理能力，以及快速、可靠的执行能力。“Step 3.5 Flash”采用一个参数量达1960亿（196B）的基础模型架构，但在实际推理过程中仅激活其中110亿（11B）参数，从而实现高效推理。该模型通过交替采用“3:1滑动窗口注意力/全注意力机制”以及“多令牌预测（MTP-3）”技术进行优化，显著降低了多轮智能体交互过程中的延迟与计算开销。为达成前沿级智能水平，我们设计了一套可扩展的强化学习框架：该框架将可验证的信号（verifiable signals）与偏好反馈（preference feedback）有机结合，并在大规模离策略（off-policy）训练中保持高度稳定性，从而实现在数学求解、代码生成与工具调用等多领域持续、一致的自我提升。“Step 3.5 Flash”在智能体任务、编程任务与数学任务上均展现出卓越性能：在IMO-AnswerBench基准测试中达到85.4%，在LiveCodeBench-v6（2024年8月—2025年5月数据集）中达86.4%，在tau2-Bench中达88.2%，在支持上下文管理的BrowseComp基准中达69.0%，在Terminal-Bench 2.0中达51.0%，整体表现可媲美GPT-5.2 xHigh、Gemini 3.0 Pro等当前最前沿的大模型。通过重新定义效率边界，“Step 3.5 Flash”为在真实工业场景中部署复杂、高要求的智能体提供了高密度、高性能的基础模型支撑。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在保持前沿级智能（尤其在数学推理、代码生成、工具调用等代理任务上）的同时，显著降低推理延迟与计算成本，从而支持工业级实时多轮智能代理的高效部署——这是一个尚未被充分解决的新工程-科学交叉问题，区别于单纯追求参数规模或离线基准分数的传统大模型优化范式。
关键思路

提出Step 3.5 Flash：一种面向代理（agentic）工作流定制的稀疏MoE架构，核心创新在于三重协同设计——（1）196B总参/11B激活的极致稀疏性；（2）3:1滑动窗口与全注意力交替的动态上下文建模，兼顾长程依赖与低延迟；（3）Multi-Token Prediction (MTP-3) 实现单次前向预测3个token，压缩多轮交互的token级开销；（4）融合可验证信号（如执行结果、形式化证明）与人类偏好反馈的稳定大规模离线强化学习框架，突破传统RLHF在代理任务中样本效率低、策略崩溃的瓶颈。
其它亮点

在IMO-AnswerBench（85.4%）、LiveCodeBench-v6（86.4%）、tau2-Bench（88.2%）等前沿代理评测中达到GPT-5.2 xHigh和Gemini 3.0 Pro水平；首次将MTP与滑动窗口注意力在MoE中联合优化用于代理延迟敏感场景；实验覆盖真实世界代理挑战：BrowseComp（69.0%，含上下文管理）、Terminal-Bench 2.0（51.0%，终端交互）；论文未明确提及开源计划，但强调‘工业可部署’，暗示可能提供量化推理SDK；值得深入的方向包括：MTP的理论收敛性分析、可验证信号的自动构造泛化、以及MoE专家路由在跨工具调用中的动态适应机制。
相关研究

DeepSeek-V3（2024）：长上下文MoE与工具调用联合优化；Qwen2.5-MoE（2024）：细粒度专家稀疏控制；Llama-3.1-MoE（Meta, 2024）：通用MoE基座；OpenHands（2024）：开源代理框架与评测基准；AgentBench（2023）与WebArena（2023）：早期代理评测基准；GRPO（2024）：基于轨迹奖励的离线RL代理训练方法；SWE-bench Lite（2024）：代码修复代理评测子集。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问