
新智元报道
新智元报道
【新智元导读】开年放大招!阶跃星辰重磅升级 Step 系基座模型全家桶,一口气连更上新 6 款模型。作为业内公认的「多模态卷王」,这家 AI 明星公司目前已拥有业内最全模型矩阵。
临近过年,阶跃星辰的春节系列大礼包也来了!
是的,这个国内屈指可数的坚持自研底座模型的大模型创业公司,又给业内带来了不小的震撼。
一口气接连上新了 6 款模型,从语言、语音、推理到多模态理解和生成,一网打尽。
经过这一轮迭代后,阶跃星辰的模型更全面,能力也更强了。而截至目前,国内有全类型基模布局的大模型公司,仅阶跃星辰、阿里通义、智谱三家。
当然,布局全是一方面,模型性能究竟同样令人关注。几乎跟阶跃发布全新模型同一时间,全新升级多模态 Step-1o 系在两大权威榜单中,再次拿下中国第一。
如今,阶跃在多模态卷王的路上越走越远。
接下来,让我们好好扒一扒,这波神级的更新有多猛。
理解生成一体化,多模态卷王持续领先
一开年,阶跃火速拿下新排位——在国内权威大模型评测平台 OpenCompass 中,Step-1o 直接问鼎。
这一情形似曾相识。
要知道,Step-1o 的上一个版本 Step-1V 多模态理解模型,去年上半年刚发布时,也火速登上了 OpenCompass 榜第一。最近一年,阶跃多模态模型在这张榜单上多次成功「守擂」。
Step-1o Vision:超越想象的视觉理解
与此同时,Step 1o 系列的视觉版本多模态——Step-1o Vision,一经推出就为阶跃在多模态赛道的竞争中增加了一大助力。
在 1 月 20 日 LMSYS Org 最新发布的大模型竞技场 Chatbot Arena 多模态榜单中,Step-1o Vision 位列视觉领域中国大模型第一,是唯一进入前 10 名的中国公司。
相较于 Step-1V 系列模型,Step-1o Vision 进行了架构升级,在视觉识别、感知、指令跟随、推理等核心能力上都有大幅提升。看得更清楚,拥有更强大的细节感知能力,且看得更明白,能深刻理解视觉背后的复杂语义和隐喻。
更精准图像理解
Step-1o Vision 就像是获得了「火眼金睛」,能轻松应对复杂场景的识别图像内容的挑战,即便是相似的图片,也能轻松识别。
前段时间,Karpathy 转发了一篇关于软件工程「认知符合」的一篇论点文章,其中一张图很好诠释了核心观点。
将它扔给 Step-1o Vision,看看它的理解力如何?
AI 一眼就辨别出了图中左右部分差异之处,它分别分析了左图和右图核心要点,并在最后给出一个言简意赅的总结。
更令人惊叹的是,它还能精确识别并理解图像中的文化隐喻。
就好比如下这类的梗图,Step-1o Vision 分析得可是头头是道。
更强大的视觉推理
但真正令人震撼的是,Step-1o Vision 的视觉推理能力。
它不仅能看懂图片,还能基于图像内容进行深度思考和推理,为你答疑解惑、激发创意,成为每个人工作与学习路上的智能伙伴。
如下这张广告牌中,Step-1o Vision 准确读取了核心信息,并给出了超强的理解力——人类技能的不可替代性,以及对 AI 的幽默回应。
再比如,需要运用到策略的问题——拿到 VC 需要几步?
Step-1o Vision 先理解了图片之后,准确推理出得到最终目标物,需要的步骤。
语音模型 Step-1o Audio 再升级
Step-1o 系列这次升级的,还有语音模型 Step-1o Audio。
去年 12 月阶跃发布了国内首个千亿参数端到端语音大模型,如今在情绪感知与理解、多语种和多方言、通话体验上,又有了新的突破。
现在,它能感知你的情绪,精准识别出语气语调中的特别之处。真的 AI,就要做到比对象还贴心。
共情是深度沟通的基础。当我吐槽今天工作太累太累,它会贴心地送上问候,并愿意倾听我的糟心事,甚至还站在我的角度去考虑问题。
而通话体验,也更加低延迟、声音更自然,有了个性化的风格。
首款推理模型:文理兼修,效果媲美 o1-mini
最近,业内各家都纷纷推出了自家的推理模型。
阶跃星辰的首款推理模型 Step R-mini,也及时登场了。至此,阶跃就圆满达成了这一成就:成为目前基座模型最全的公司之一。
所以,Step R-mini 的推理能力如何?
令人惊喜的是,在 AIME 和 Math 等数学基准测试上,它的成绩超过了 o1-preview,比肩 OpenAI o1-mini。在 LiveCodeBench 代码任务上,也比 o1-preview 效果更佳。
接下来,我们就要上实测题了。
比如这道逻辑推理,Step R-mini 很轻松地就给出了正确答案。
一个控制小飞机躲子弹游戏的 python 代码,它经过一番思考后丝滑写出。
下面测试大部分推理模型的盲区——文科。在内容创作上,Step R-mini 写的现代诗的表现也是可圈可点。
在思考过程中,它会首先分析我们的要求,思考该怎样处理创作角度,如何赋予事物人类情感的象征意义。
上下滑动查看
引人注意的是,在推理模型的研发上,阶跃也在将自己擅长的多模态融入进去,Step R-mini 在视觉推理上已经有了阶段性成果。
最常见的问路题,Step R-mini 在复杂场景中,也能做出判断,给出正确的导向。
还有类似的题——「从蓝色箭头出发,我能到达哪个」,Step R-mini 一眼就辨认出路线。
再上升一个难度——「这些小球分别对应什么数字」,更多起到找终点的问题,AI 也没有被绕晕。

Step-Video V2:开启视频生成新篇章
复杂运动,动作更自然


舞台灯光为蓝色,背景幕布描绘了湖水和山峦的景象。一位身穿白色芭蕾舞裙的芭蕾舞演员在舞台中央翩翩起舞。固定镜头,平视拍摄,演员旋转,挥舞手臂,踮起脚尖。镜头拉远,平视拍摄,展示出更多芭蕾舞演员,她们身穿白色芭蕾舞裙,在舞台上整齐地排列,跟随主角的舞步,一同挥舞手臂,踮起脚尖。镜头缓慢推近,平视拍摄,聚焦于主角,她优雅地跳跃、旋转。固定镜头,平视拍摄,主角和芭蕾舞团的演员们在舞台上继续表演,她们的动作协调一致,展现出优美的舞姿。
人物刻画更逼真

视频中,一位身着蓝色上衣的女子坐在列车窗前,头依靠着窗户看向窗外。她面带微笑,眼神中透露出对窗外景色的向往。列车正高速行驶,窗外的景色迅速向后掠过,仿佛是一幅幅流动的画卷。整个画面采用固定镜头拍摄,画面清晰,具有纪实风格,展现了女子与窗外景色的和谐美感。

视频中,一个身穿西装的小男孩,突然表情变得狰狞,身体逐渐被黑色的液体包裹,最终变身成为黑色毒液。这个过程在暗色调的环境中进行,背景较为模糊,突出表现了小男孩变身的每一个细节。视频采用特写镜头拍摄,具有科幻风格,清晰地展示了变身的每一个动作细节,给人以震撼感。
精准文字生成

采用 3D 动画风格,视频中,慢慢显现出了“Year of Snake, 2025”的字样,天空中绽放出绚烂的烟花。2025 字样晶莹剔透泛着金光,地板上反射着它的倒影,背景是黑色的地板。一条卡通蛇戴着一副酷炫的黑色墨镜不断扭动身体,镜片上反射着舞台的灯光。画面采用固定机头,动画风格,展现了蛇年过年喜庆热闹的氛围。

视频中,一只毛色柔软的灰色小猫前爪紧握着写有「福」字样的对联。它戴着一条红色的围巾,围巾上绣着金色的花纹。小猫的眼神专注而灵动,似乎在为新年的到来而欢呼雀跃。它站在一个装饰华丽的房间里,房间里挂满了彩带和气球,充满了节日的氛围。整个画面采用固定镜头拍摄,画面清晰,具有温馨而喜庆的氛围。
镜头表现力突破性升级

视频中,一名身穿醒目黄色和红色赛车服的赛车手,头戴专业头盔,驾驶一辆设计独特的白色和红色本田摩托车,在泥土赛道上展开紧张刺激的越野赛。镜头以平视方式跟随赛车手,捕捉他每一个跳跃、转弯和加速的瞬间。赛道由松散的泥土构成,背景中观众席、围栏、旗帜

手持跟踪镜头滑过飞船走廊,捕捉到宇航员工作时专注而有序的神态。镜头拉近到一名操作员,他全神贯注地盯着屏幕,额头上沁出了汗珠,周围的仪器发出低沉的嗡嗡声,加剧了紧迫感。
Step-2 mini、Step 文学大师来了
上下滑动查看
初心不变,AGI 路上的技术理想主义者



内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢