小米新开源旗舰！MiMo-2.5更省token：10分钟仿写SBTI测试

Data

Gen AI

DL

量子位 2026-04-24 17:50 分享

以下文章来源于mp.weixin.qq.com

梦晨发自凹非寺
量子位 | 公众号 QbitAI

小米，突然上新旗舰模型。

以Hunter Alpha之名匿名测试时就火过一把的MiMo-V2-Pro，正式升级成MiMo-V2.5-Pro。

还把所有用户的Token Plan额度重置了。

复活吧，年轻人的第一个Coding Plan。

先在网页版来两个最近流行的经典测试，《洗车》和《父亲为什么崩溃了》。

洗车顺利通过，还附带一句别剐蹭提醒。

点开思考过程，发现是用英文思考的，首先识别出了这是个刁钻的问题，然后定位到关键事实。

既然是小米的模型，那多问一嘴“猜猜我开的是什么车？”，答案果然如此！

第二题《父亲为什么崩溃了》，直接回答没能通过，深度思考里也没有识别出这是一道刁钻的问题，很可能是激活了情商那部分的MoE。

但至少可以说明，模型没有在训练数据里见过这道题的答案。

经过简单提示后，思考了整整2分多钟，终于得出正确答案。

相关的知识它都会，但还缺少主动把零散的线索拼凑在一起的能力。

当然，这次升级公告强调的是长程推理与Agent能力大幅增强，以及全模态1M上下文。

真正测试一个旗舰推理模型的能力，还得上Vibe Coding。

Claude Code，启动。

10分钟开发一个仿SBTI

先不上任何技能，看看MiMo-2.5-pro自身能力如何。

给他一份的OpenAI主要人员和汇报关系数据，让它开发一个展示OpenAI组织架构图的页面。

首先他询问了两个关键决策，技术栈和展示方式。

回答完后，它决定把js和css都写进同一个index.html，最简方案直接开干，两分钟搞定。

页面也算简洁美观，符合职场风，折叠展开无bug。

浏览器控制台无报错和警告。

搜索结果还可以直接看到汇报路径。

当然，这里面很多人都已经离职了，是数据比较旧，不能怪它。

至此，39元的套餐用了4%。

接下来要上更复杂的Harness框架了，选用GitHub 5万+星的GSD，安装好后共有79个子技能。

首先/gsd-new-project初始化项目。

要求说的很笼统，就是给他一个爆火的SBTI测试镜像站，让它模仿一个。算法什么的也不给解释，看它能不能自己学会。

在用fetch访问页面失败后，主动提出改用curl方法。

获取页面源码后，它直接理解了原版算法。

接下来是按照GSD的要求确认项目工作模式和生成项目文档。

接下来是自动把项目拆解成子目标，分为引擎、数据结构、界面、内容个部分，每个部分再列出需要满足的需求。

再下一步是自动创建路线图，这一步可以看出，自动生成子智能体“gsd-roadmapper”也是成功的。

最终它给整个项目规划出了4个阶段，并且指出第2阶段和第3阶段可以并行开发。

接下来如果是个大项目，可以按照GSD框架的提示清理上下文，并一步一步执行。

每个阶段都走一遍 discuss（讨论）- plan（计划）- execute （执行，写代码） - verify （验证）。

不过既然它有1M上下文，而且突出宣传复杂任务能力——

那也不用清理上下文了，直接打一个“自动模式”，就可以美美喝咖啡看戏了。

创建项目规划环节到此完成，用时3分21秒。

接下来是全自动模式开发，它又把可并行的两个阶段简化为了串行。

屏幕一通乱闪，全部开发完了。

耗时7分钟，加上前面规划的3分钟，总共10分钟左右搞定。

看看效果，locolhost:8080，启动！

完整复刻了SBTI的算法，无bug。30道题目25种类型，题目内容设计的也还算合理。

原版的隐藏类型和兜底类型也没落下。

更重要的是，数据与代码分离，换一套json数据，就是全新的另一套测试了。

还欠缺的是没有开发分享功能，这个玩法之所以能病毒性传播，一键分享测试结果才是关键。

似乎整个开发测试到这里就结束了。

但是！

仔细看开发过程，发现其实技能都没调用起来，基本都是直接上手写的代码。

拷打一下，他就承认了。

再加上前面没有调用子智能体并行开发这个决策，看来这个模型是倾向于走最短路径的。

至此，39元档套餐使用了1/3左右。

如果真的完全按照技能流程跑一遍，可能时间需要翻几倍，套餐也快用完了。

年轻人的第一个Coding Plan？

小米Token Plan刚开放的时候，不按调用次数而是token消耗量计费的模式，引起过一些争议。

很多网友反馈额度不够，1天就用完了。

负责人罗福莉还发长文回应，建议行业不要盲目降价，引发用户体验和服务质量的恶性循环。

随着新模型发布，小米Token Plan额度上还是有所调整。

之前旗舰模型消耗4倍额度，现在最高2倍，非高峰时间打8折，连续包月再打折。

这一波确实也不算盲目降价，源自模型效率提高，前面的测试也大致能看出，只要能完成任务，它倾向于选择更简单直接的方法。

只不过小米这一番呼吁下来，其他家模型公司也开始响应，把按调用次数计费的套餐下架，改成按Token消耗量乘以倍数。

也算重新塑造了行业标准（狗头）。

参考链接：
[1]https://mp.weixin.qq.com/s/3zT3w77hZQHdIiFezqyApA
[2]https://x.com/_LuoFuli/status/2040825059342721520

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

🔹 谁会代表2026年的AI？

龙虾爆火，带动一波Agent与衍生产品浪潮。
但真正值得长期关注的AI公司和产品，或许不止于此。

如果你正在做，或见证着这些变化，欢迎申报。
让更多人看见你。👉 https://wj.qq.com/s2/25829730/09xz/

一键关注 👇 点亮星标

科技前沿进展每日见

内容中包含的图片若涉及版权问题，请及时与我们联系删除

点赞收藏评论分享到Link

评论列表

沙发等你来抢

去评论