梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

小米,突然上新旗舰模型。

Hunter Alpha之名匿名测试时就火过一把的MiMo-V2-Pro,正式升级成MiMo-V2.5-Pro

还把所有用户的Token Plan额度重置了。

复活吧,年轻人的第一个Coding Plan。

先在网页版来两个最近流行的经典测试,《洗车》和《父亲为什么崩溃了》。

洗车顺利通过,还附带一句别剐蹭提醒。

点开思考过程,发现是用英文思考的,首先识别出了这是个刁钻的问题,然后定位到关键事实。

既然是小米的模型,那多问一嘴“猜猜我开的是什么车?”,答案果然如此!

第二题《父亲为什么崩溃了》,直接回答没能通过,深度思考里也没有识别出这是一道刁钻的问题,很可能是激活了情商那部分的MoE。

但至少可以说明,模型没有在训练数据里见过这道题的答案。

经过简单提示后,思考了整整2分多钟,终于得出正确答案。

相关的知识它都会,但还缺少主动把零散的线索拼凑在一起的能力。

当然,这次升级公告强调的是长程推理与Agent能力大幅增强,以及全模态1M上下文。

真正测试一个旗舰推理模型的能力,还得上Vibe Coding。

Claude Code,启动。

10分钟开发一个仿SBTI

先不上任何技能,看看MiMo-2.5-pro自身能力如何。

给他一份的OpenAI主要人员和汇报关系数据,让它开发一个展示OpenAI组织架构图的页面。

首先他询问了两个关键决策,技术栈和展示方式。

回答完后,它决定把js和css都写进同一个index.html,最简方案直接开干,两分钟搞定。

页面也算简洁美观,符合职场风,折叠展开无bug。

浏览器控制台无报错和警告。

搜索结果还可以直接看到汇报路径。

当然,这里面很多人都已经离职了,是数据比较旧,不能怪它。

至此,39元的套餐用了4%。

接下来要上更复杂的Harness框架了,选用GitHub 5万+星的GSD,安装好后共有79个子技能。

首先/gsd-new-project初始化项目。

要求说的很笼统,就是给他一个爆火的SBTI测试镜像站,让它模仿一个。算法什么的也不给解释,看它能不能自己学会。

在用fetch访问页面失败后,主动提出改用curl方法。

获取页面源码后,它直接理解了原版算法。

接下来是按照GSD的要求确认项目工作模式和生成项目文档。

接下来是自动把项目拆解成子目标,分为引擎、数据结构、界面、内容个部分,每个部分再列出需要满足的需求。

再下一步是自动创建路线图,这一步可以看出,自动生成子智能体“gsd-roadmapper”也是成功的。

最终它给整个项目规划出了4个阶段,并且指出第2阶段和第3阶段可以并行开发

接下来如果是个大项目,可以按照GSD框架的提示清理上下文,并一步一步执行。

每个阶段都走一遍 discuss(讨论)- plan(计划)- execute (执行,写代码) - verify (验证)。

不过既然它有1M上下文,而且突出宣传复杂任务能力——

那也不用清理上下文了,直接打一个“自动模式”,就可以美美喝咖啡看戏了。

创建项目规划环节到此完成,用时3分21秒

接下来是全自动模式开发,它又把可并行的两个阶段简化为了串行。

屏幕一通乱闪,全部开发完了。

耗时7分钟,加上前面规划的3分钟,总共10分钟左右搞定。

看看效果,locolhost:8080,启动!


完整复刻了SBTI的算法,无bug。30道题目25种类型,题目内容设计的也还算合理。


原版的隐藏类型和兜底类型也没落下。

更重要的是,数据与代码分离,换一套json数据,就是全新的另一套测试了。

还欠缺的是没有开发分享功能,这个玩法之所以能病毒性传播,一键分享测试结果才是关键。

似乎整个开发测试到这里就结束了。

但是!

仔细看开发过程,发现其实技能都没调用起来,基本都是直接上手写的代码。

拷打一下,他就承认了。

再加上前面没有调用子智能体并行开发这个决策,看来这个模型是倾向于走最短路径的。

至此,39元档套餐使用了1/3左右。

如果真的完全按照技能流程跑一遍,可能时间需要翻几倍,套餐也快用完了。

年轻人的第一个Coding Plan?

小米Token Plan刚开放的时候,不按调用次数而是token消耗量计费的模式,引起过一些争议。

很多网友反馈额度不够,1天就用完了。

负责人罗福莉还发长文回应,建议行业不要盲目降价,引发用户体验和服务质量的恶性循环。

随着新模型发布,小米Token Plan额度上还是有所调整。

之前旗舰模型消耗4倍额度,现在最高2倍,非高峰时间打8折,连续包月再打折。

这一波确实也不算盲目降价,源自模型效率提高,前面的测试也大致能看出,只要能完成任务,它倾向于选择更简单直接的方法。

只不过小米这一番呼吁下来,其他家模型公司也开始响应,把按调用次数计费的套餐下架,改成按Token消耗量乘以倍数。

也算重新塑造了行业标准(狗头)。

参考链接:
[1]https://mp.weixin.qq.com/s/3zT3w77hZQHdIiFezqyApA
[2]https://x.com/_LuoFuli/status/2040825059342721520

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


🔹 谁会代表2026年的AI?

龙虾爆火,带动一波Agent与衍生产品浪潮。
但真正值得长期关注的AI公司和产品,或许不止于此。

如果你正在做,或见证着这些变化,欢迎申报。
让更多人看见你。👉 https://wj.qq.com/s2/25829730/09xz/

一键关注 👇 点亮星标
科技前沿进展每日见

内容中包含的图片若涉及版权问题,请及时与我们联系删除