多模态卷王阶跃震撼6连发，春节档最强AI家族来袭！

新智元报道

编辑：编辑部 HYZ

【新智元导读】开年放大招！阶跃星辰重磅升级 Step 系基座模型全家桶，一口气连更上新 6 款模型。作为业内公认的「多模态卷王」，这家 AI 明星公司目前已拥有业内最全模型矩阵。

临近过年，阶跃星辰的春节系列大礼包也来了！

是的，这个国内屈指可数的坚持自研底座模型的大模型创业公司，又给业内带来了不小的震撼。

一口气接连上新了 6 款模型，从语言、语音、推理到多模态理解和生成，一网打尽。

经过这一轮迭代后，阶跃星辰的模型更全面，能力也更强了。而截至目前，国内有全类型基模布局的大模型公司，仅阶跃星辰、阿里通义、智谱三家。

当然，布局全是一方面，模型性能究竟同样令人关注。几乎跟阶跃发布全新模型同一时间，全新升级多模态 Step-1o 系在两大权威榜单中，再次拿下中国第一。

如今，阶跃在多模态卷王的路上越走越远。

接下来，让我们好好扒一扒，这波神级的更新有多猛。

理解生成一体化，多模态卷王持续领先

一开年，阶跃火速拿下新排位——在国内权威大模型评测平台 OpenCompass 中，Step-1o 直接问鼎。

这一情形似曾相识。

要知道，Step-1o 的上一个版本 Step-1V 多模态理解模型，去年上半年刚发布时，也火速登上了 OpenCompass 榜第一。最近一年，阶跃多模态模型在这张榜单上多次成功「守擂」。

Step-1o Vision：超越想象的视觉理解

与此同时，Step 1o 系列的视觉版本多模态——Step-1o Vision，一经推出就为阶跃在多模态赛道的竞争中增加了一大助力。

在 1 月 20 日 LMSYS Org 最新发布的大模型竞技场 Chatbot Arena 多模态榜单中，Step-1o Vision 位列视觉领域中国大模型第一，是唯一进入前 10 名的中国公司。

相较于 Step-1V 系列模型，Step-1o Vision 进行了架构升级，在视觉识别、感知、指令跟随、推理等核心能力上都有大幅提升。看得更清楚，拥有更强大的细节感知能力，且看得更明白，能深刻理解视觉背后的复杂语义和隐喻。

更精准图像理解

Step-1o Vision 就像是获得了「火眼金睛」，能轻松应对复杂场景的识别图像内容的挑战，即便是相似的图片，也能轻松识别。

前段时间，Karpathy 转发了一篇关于软件工程「认知符合」的一篇论点文章，其中一张图很好诠释了核心观点。

将它扔给 Step-1o Vision，看看它的理解力如何？

AI 一眼就辨别出了图中左右部分差异之处，它分别分析了左图和右图核心要点，并在最后给出一个言简意赅的总结。

更令人惊叹的是，它还能精确识别并理解图像中的文化隐喻。

就好比如下这类的梗图，Step-1o Vision 分析得可是头头是道。

更强大的视觉推理

但真正令人震撼的是，Step-1o Vision 的视觉推理能力。

它不仅能看懂图片，还能基于图像内容进行深度思考和推理，为你答疑解惑、激发创意，成为每个人工作与学习路上的智能伙伴。

如下这张广告牌中，Step-1o Vision 准确读取了核心信息，并给出了超强的理解力——人类技能的不可替代性，以及对 AI 的幽默回应。

再比如，需要运用到策略的问题——拿到 VC 需要几步？

Step-1o Vision 先理解了图片之后，准确推理出得到最终目标物，需要的步骤。

语音模型 Step-1o Audio 再升级

Step-1o 系列这次升级的，还有语音模型 Step-1o Audio。

去年 12 月阶跃发布了国内首个千亿参数端到端语音大模型，如今在情绪感知与理解、多语种和多方言、通话体验上，又有了新的突破。

现在，它能感知你的情绪，精准识别出语气语调中的特别之处。真的 AI，就要做到比对象还贴心。

共情是深度沟通的基础。当我吐槽今天工作太累太累，它会贴心地送上问候，并愿意倾听我的糟心事，甚至还站在我的角度去考虑问题。

Step-1o Audio 也通晓一些人情世故。当男朋友生气了，我寻求帮助，它会献上高情商的良策。更有趣的是，还能够让 AI 在线「撒娇」教学。

假设你有鸡蛋、西红柿、生菜、鸡肉，不知道如何做一道减脂餐的时候，直接找它帮忙就可以了。

同时，它还支持多语种、多方言对话，在中英交流时，直接达到「同传」的水平！

而通话体验，也更加低延迟、声音更自然，有了个性化的风格。

首款推理模型：文理兼修，效果媲美 o1-mini

最近，业内各家都纷纷推出了自家的推理模型。

阶跃星辰的首款推理模型 Step R-mini，也及时登场了。至此，阶跃就圆满达成了这一成就：成为目前基座模型最全的公司之一。

虽说推理模型早已不是一个新鲜的概念，但在它们之中，却存在着严重的「偏科」现象。只会做数理题的 AI，就像个只会背公式的学霸，很难在实际任务中广泛应用。

而模型想要「文理兼修」，就必须变身全能型选手，什么通用任务都能轻松搞定。

这里的问题在于，如果只是简单地通过增加训练数据来提升文科能力，那么就会像跷跷板一样，造成模型理工科能力的下滑。

为了规避这一点，Step R-mini 采用了 On-Policy（同策略）强化学习算法，并进行了大规模的强化学习训练。

所以，Step R-mini 的推理能力如何？

令人惊喜的是，在 AIME 和 Math 等数学基准测试上，它的成绩超过了 o1-preview，比肩 OpenAI o1-mini。在 LiveCodeBench 代码任务上，也比 o1-preview 效果更佳。

接下来，我们就要上实测题了。

比如这道逻辑推理，Step R-mini 很轻松地就给出了正确答案。

一个控制小飞机躲子弹游戏的 python 代码，它经过一番思考后丝滑写出。

下面测试大部分推理模型的盲区——文科。在内容创作上，Step R-mini 写的现代诗的表现也是可圈可点。

在思考过程中，它会首先分析我们的要求，思考该怎样处理创作角度，如何赋予事物人类情感的象征意义。

上下滑动查看

引人注意的是，在推理模型的研发上，阶跃也在将自己擅长的多模态融入进去，Step R-mini 在视觉推理上已经有了阶段性成果。

最常见的问路题，Step R-mini 在复杂场景中，也能做出判断，给出正确的导向。

还有类似的题——「从蓝色箭头出发，我能到达哪个」，Step R-mini 一眼就辨认出路线。

再上升一个难度——「这些小球分别对应什么数字」，更多起到找终点的问题，AI 也没有被绕晕。

针对复杂视觉场景下的 Reasoning 问题，团队引入了慢感知和空间推理的思想，把 Test-Time Scaling 从文本空间转移到视觉空间，实现在视觉空间下的 Spatial-Slow-Thinking。

据悉，阶跃也计划今年发布多模态视觉推理。

Step-Video V2：开启视频生成新篇章

若说 Step-1o Vision 让 AI 真正理解了视觉世界，那么 Step-Video 则让 AI 创造力插上了想象的翅膀。

这一次，Step-Video 模型迎来了重大升级，迭代到了最新 V2 版本。

复杂运动，动作更自然

其中，最令人印象深刻的是，其在复杂运动场景的突破。

我们已经看过太多太多，AI 视频模型在体操、运动、健身等场景中，频频失败的案例。

舞蹈、运动等各种复杂运动场景中，在 Step-Video V2 的演绎下，呈现出前所未有的流畅自然感。

比如下面这段芭蕾舞，双腿频频交替之间，并没有出现幻觉。

舞台灯光为蓝色，背景幕布描绘了湖水和山峦的景象。一位身穿白色芭蕾舞裙的芭蕾舞演员在舞台中央翩翩起舞。固定镜头，平视拍摄，演员旋转，挥舞手臂，踮起脚尖。镜头拉远，平视拍摄，展示出更多芭蕾舞演员，她们身穿白色芭蕾舞裙，在舞台上整齐地排列，跟随主角的舞步，一同挥舞手臂，踮起脚尖。镜头缓慢推近，平视拍摄，聚焦于主角，她优雅地跳跃、旋转。固定镜头，平视拍摄，主角和芭蕾舞团的演员们在舞台上继续表演，她们的动作协调一致，展现出优美的舞姿。

人物刻画更逼真

在人物形象刻画上，Step-Video V2 将细节表现推向了极致，更逼真生动、细节更丰富，表现更自然。

从五官轮廓到真实的皮肤质感，从自然的面部表情到微妙的身体语言，每一个细节都经过精心打磨。

再来看这位乘坐列车看向窗外的女子，AI 在人物刻画上也做到的非常真实，包括窗外物体运动方向，也很好地遵循了物理世界。

视频中，一位身着蓝色上衣的女子坐在列车窗前，头依靠着窗户看向窗外。她面带微笑，眼神中透露出对窗外景色的向往。列车正高速行驶，窗外的景色迅速向后掠过，仿佛是一幅幅流动的画卷。整个画面采用固定镜头拍摄，画面清晰，具有纪实风格，展现了女子与窗外景色的和谐美感。

Step-Video V2 在「变身」方面，表现更加精彩——一个小男孩突然变身毒液。

视频中，一个身穿西装的小男孩，突然表情变得狰狞，身体逐渐被黑色的液体包裹，最终变身成为黑色毒液。这个过程在暗色调的环境中进行，背景较为模糊，突出表现了小男孩变身的每一个细节。视频采用特写镜头拍摄，具有科幻风格，清晰地展示了变身的每一个动作细节，给人以震撼感。

精准文字生成

不仅如此，Step-Video V2 在文字生成方面，更加精准，还能支持中英双语输入。

下面「2025」字样中，比较难得一点是，AI 还可以将倒映在地板上的 2025 同时生成出来。

采用 3D 动画风格，视频中，慢慢显现出了“Year of Snake， 2025”的字样，天空中绽放出绚烂的烟花。2025 字样晶莹剔透泛着金光，地板上反射着它的倒影，背景是黑色的地板。一条卡通蛇戴着一副酷炫的黑色墨镜不断扭动身体，镜片上反射着舞台的灯光。画面采用固定机头，动画风格，展现了蛇年过年喜庆热闹的氛围。

带着红色围巾的小猫，手里拿着福字，过年氛围感完全拉满了。

视频中，一只毛色柔软的灰色小猫前爪紧握着写有「福」字样的对联。它戴着一条红色的围巾，围巾上绣着金色的花纹。小猫的眼神专注而灵动，似乎在为新年的到来而欢呼雀跃。它站在一个装饰华丽的房间里，房间里挂满了彩带和气球，充满了节日的氛围。整个画面采用固定镜头拍摄，画面清晰，具有温馨而喜庆的氛围。

镜头表现力突破性升级

更令人兴奋地是，Step-Video V2 在视频叙事上，实现了全方位的升级。

丰富的镜头语言，让其能够创作出更具感染力的作品。

视频中，一名身穿醒目黄色和红色赛车服的赛车手，头戴专业头盔，驾驶一辆设计独特的白色和红色本田摩托车，在泥土赛道上展开紧张刺激的越野赛。镜头以平视方式跟随赛车手，捕捉他每一个跳跃、转弯和加速的瞬间。赛道由松散的泥土构成，背景中观众席、围栏、旗帜

再加上推位摇移等专业镜头技巧的灵活运用，Step-Video V2 不仅让视频画面更具美感，更为内容叙事注入了独特的艺术魅力。

下面这个「跟拍」宇航员的镜头，完全不输好莱坞大片。人物角色额头上的汗珠，这么微小的细节，AI 也能完全呈现出来。

手持跟踪镜头滑过飞船走廊，捕捉到宇航员工作时专注而有序的神态。镜头拉近到一名操作员，他全神贯注地盯着屏幕，额头上沁出了汗珠，周围的仪器发出低沉的嗡嗡声，加剧了紧迫感。

Step-2 mini、Step 文学大师来了

除了多模态模型，阶跃自研的语言模型也实力强大，表现亮眼。

比如去年 3 月发布的 Step-2，就是国内最早由创业公司发布的万亿参数大模型，多次在国内外权威榜单上获得中国第一。

此次升级的 Step-2 mini、Step 文学大师版都是 Step-2 系列的分支。不同的是，前者性价比更高，更具商用性，后者则在文学创作上表现出了惊人能力。

Step-2 mini

Step-2 mini 是一款小参数模型，它的亮点是极速响应、高性价比，因而商业化场景更广泛。

对比 Step-2 来看，Step-2 mini，只有 3%左右的参数量，却保有了 80%以上的模型性能。

与此同时，它拥有更快的生成速度，和极高的性价比。

在输入 4000 tokens 的情况下，Step-2 mini 的平均首字时延仅 0.17 秒。输入低至 1 元/百万 token；输出低至 2 元/百万 token。

之所以能达到如此极速的效果和极致性价比，都要归功于阶跃星辰自主研发的新型注意力机制架构——MFA（多矩阵分解注意力）及其变体 MFA-Key-Reuse。

相比于常用的 MHA（多头注意力）架构，这种架构节省了近 94%的 KV 缓存开销，因而拥有了更快的推理速度，同时大幅降低了推理成本。

现在，在阶跃星辰开放平台，开发者已经可以调用 Step-2 mini 的 API 接口了。

Step 文学大师

Step-2 文学大师版，是专为创作而生的语言模型。

它不仅沿袭了万亿参数语言模型 Step-2 广袤的知识储备、对文字强大的细节把控能力，还拥有更强大的内容创作能力。

为什么很多大模型创作的内容，总有一股挥之不去的 AI 味？

本质原因，就是这些模型过度对齐社会共识，「跪得太直」。因为丝毫没有真情实感，一出口自然也就是「正确的废话」，缺少灵魂。

好的内容创作，需要逻辑严密、语言凝练、句句带料，拥有深刻思想和独特风格。

不过，这许多人类都无法做到的事，模型怎么做到呢？

此时，Scaling Law 就是重中之重了。模型小、预训练数据小，模型就没有足够的智能。

而 Step-2 文学大师的训练过程中，足够的模型容量、训练数据量，都成为了它文字功底的基石。

那就让我们来看看，Step-2 文学大师的写作功底究竟如何。

我们请它以「过年」为题，写一篇悬疑小说。

有了有了，有那味了！这个悬念丛生的故事，是小编在某乎上看到，一定会付费看到结局的程度。

上下滑动查看

接下来，让它试试写一篇科幻小说，描写一下 100 年后人类和 AI 共存的世界。

这篇故事的主人公，负责 AI 的定期销毁。看到最后一段，小编后背一凉：Step-2 文学大师，您的大作真是绝了！

上下滑动查看

初心不变，AGI 路上的技术理想主义者

百模大战之后，阶跃星辰、智谱、百川智能、月之暗面、MiniMax、零一万物脱颖而出，成为人们口中的「AI 六小强」。而这六家 AI 初创明星公司，也因过去一年的选择，分化出了全新的格局。

一直以来，技术演进和商业探索都不是一条直线。各家根据自身特点选择不同的路径，这种多元化发展格局，恰恰体现了行业的蓬勃生机。

百川智能专注 AI 医疗领域，其医疗增强大模型能力全球领先，并且在落地应用上也取得了不错进展。聚焦金融、教育、医疗等行业的商业化，通过全链路领域增强的一站式解决方案帮助企业智能化升级。

零一万物聚焦参数适中、推理速度更快、推理成本更低、更具商业落地前景的性能卓越的轻量化模型。在国内市场专注 ToB 方向，在海外市场则以理性的姿态继续 ToC 应用的探索。

月之暗面通过 Kimi 探索国内消费级市场，力争打造 AI 时代的超级应用。并于近日推出了 OpenAI 满血版 o1 之外第二个多模态推理模型 k1.5。

此外，阶跃星辰则选择继续在基座大模型上加大研发。

不久前，阶跃星辰已经完成了 B 轮融资，资金总额高达数亿美金。据了解，这笔资金将继续用于基础模型的研发，继续强化多模态和复杂推理方面。阶跃一口气发布的基模「六连更」，是 2025 年第一张成绩单。

回顾过去一年各大 AI 产品的发展历程，我们不难发现一个规律：无论是对话能力、创意写作，还是代码生成，用户体验的天花板始终受限于底层模型的能力边界。

一些看似简单的产品创新，往往需要强大的模型能力的支撑。

值得一提的是，Step 系模型多次在各大权威榜单中登顶榜首，收获国内外开发者诸多好评，充分验证了其技术实力。

AI 大模型的竞争就像一场马拉松，重要的不是起跑的速度，而是途中的节奏和后程的耐力。而现在，阶跃冲刺的后劲十足。

从千亿参数到万亿参数的跨越，从文本图像理解到视频生成的拓展，阶跃正在用一个个具体成果，将那张通往 AGI 的路线图变为现实。

毕竟，在通过 AGI 的征程上，只有那些能够持续积累的玩家，才有可能走到最后。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

多模态卷王阶跃震撼6连发，春节档最强AI家族来袭！

新智元报道

【新智元导读】开年放大招！阶跃星辰重磅升级 Step 系基座模型全家桶，一口气连更上新 6 款模型。作为业内公认的「多模态卷王」，这家 AI 明星公司目前已拥有业内最全模型矩阵。

语音模型 Step-1o Audio 再升级

复杂运动，动作更自然

人物刻画更逼真

精准文字生成

镜头表现力突破性升级

评论列表

评论