STEP3-VL-10B Technical Report

2026年01月14日
  • 简介
    我们推出STEP3-VL-10B,这是一款轻量级的开源基础模型,旨在重新定义紧凑效率与前沿多模态智能之间的权衡。STEP3-VL-10B的实现基于两项关键策略:首先,采用统一且完全不冻结的预训练策略,在1.2万亿多模态token上进行训练,将语言对齐的感知编码器与Qwen3-8B解码器相结合,从而建立内在的视觉-语言协同机制;其次,构建了一个可扩展的后训练流程,包含超过1000轮的强化学习迭代。尤为重要的是,我们引入了并行协同推理(Parallel Coordinated Reasoning, PaCoRe)机制,以扩展测试阶段的计算资源,将算力集中用于可扩展的感知推理,探索并综合多种视觉假设。因此,尽管模型规模仅为100亿参数,STEP3-VL-10B的表现仍可媲美甚至超越体量大出10至20倍的模型(如GLM-4.6V-106B、Qwen3-VL-235B),以及Gemini 2.5 Pro和Seed-1.5-VL等顶级闭源旗舰模型。该模型在多项基准测试中达到业界领先水平,在MMBench上取得92.2%的成绩,在MMMU上达到80.11%;在复杂推理任务中表现尤为出色,AIME2025得分为94.43%,MathVision得分为75.95%。我们已公开完整的模型套件,旨在为学术界提供一个强大、高效且可复现的基准模型。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决在保持模型轻量化的同时实现前沿水平的多模态智能这一挑战。传统大型多模态模型参数量大、计算成本高,难以部署,而小型模型又往往性能不足。本文验证了通过系统性训练策略和推理时计算扩展,10B级别的模型也能达到甚至超越数十倍更大模型的性能,这是一个尚未被充分探索但极具实际价值的问题。
  • 关键思路
    核心思路包括两点创新:一是采用完全解冻的统一预训练策略,在1.2万亿多模态token上联合训练语言对齐的感知编码器与Qwen3-8B解码器,建立内在的视觉-语言协同;二是引入可扩展的后训练流程,结合超过1000轮的强化学习,并提出并行协调推理(PaCoRe)机制,在测试时通过并行探索和综合多种视觉假设来提升感知推理能力。相比以往固定架构或冻结编码器的方法,该方法更充分挖掘了紧凑模型的潜力。
  • 其它亮点
    模型STEP3-VL-10B仅10B参数,却在MMBench上达到92.2%、MMMU上80.11%,并在AIME2025和MathVision等复杂推理任务上表现卓越(分别为94.43%和75.95%),超越GLM-4.6V-106B、Qwen3-VL-235B及Gemini 2.5 Pro等超大规模闭源模型。实验设计覆盖广泛基准,强调推理能力和泛化性。作者已开源完整模型套件,极大促进可复现研究。未来方向包括进一步优化PaCoRe的计算效率与推广至更多下游任务。
  • 相关研究
    1. Qwen-VL: A Versatile Vision-Language Model for Understanding and Reasoning 2. GLM-4: General Language Model with Scalable Alignment 3. PaLM-E: An Embodied Multimodal Language Model 4. Flamingo: A Visual Language Model for Few-Shot Learning 5. LLaVA: Large Language and Vision Assistant 6. MiniGPT-v2: Fast and Effective Knowledge-Enhanced Multimodal Model
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问