实测o3/o4-mini：3分钟解决欧拉问题，OpenAI最强模型名副其实！

一水发自凹非寺
量子位 | 公众号 QbitAI

号称“OpenAI迄今为止最强模型”，o3/o4-mini真实能力究竟如何？

就在发布后的几小时内，网友们的第一波实测已新鲜出炉。

最强推理模型o3，即使遇上首位全职提示词工程师Riley Goodside的“刻意刁难”，也顺利过关：

可以看到，面对藏在一堆玩具里的手绘图表，它也能通过图像识别和推理能力正确解答。

而o4-mini作为一款专为快速、经济高效的推理而优化的小模型，在数学能力方面堪称强悍——

用时2分55秒，解决了最新的欧拉问题，并且该网友强调：

至今只有15个人能够在30分钟内解决它。

与此同时，OpenAI内部技术人员也表示，o3的出现让他第一次萌生了将模型称为通用人工智能（AGI）的念头。

眼见气氛都烘托到这儿了，那我们还不得赶紧看看更多实测效果（doge）。

网友实测o3/o4-mini

首次带图深度思考

首先，官方提到，o3和o4-mini是OpenAI首次能将上传图像集成到思维链中的模型——

这意味着，它们可以基于图像展开思考。

比如有人随手上传一张照片，让o3来判断拍摄时间和地点，而且要求能具体到地图上的某一个点。

结果令这位小哥惊讶的是，其答案和实际情况之间的误差非常小：

地点仅相差1000英尺（约305米），时间仅相差2分钟。

更有意思的是，假如一张图上的小字看不清，通过扒思维链还能发现——o3甚至会自己“偷偷放大”。

难怪在针对复杂多模态谜题的EnigmaEva测试基准中，o3能拿下SOTA。

不过值得注意的是，据自称OpenAI员工的网友爆料，虽然基准测试结果存在差异，但o4-mini实际上是比o3更好的视觉模型。

该网友甚至直接建议大家：

在任何涉及视觉的任务中使用o4-mini-high而不是o3。

巧合的是，在大多需要计算复杂数学题的带图测试中，大家竟默契选择了o4-mini而非o3。

除了一开头提到的解答欧拉问题的例子，o4-mini也被用来解读技术图纸。

该网友表示，对于这种大多AI都很难搞定的难题，它一次就成功了：

o4 mini（high）能够分析该部件的尺寸并准确计算出正确体积。

编程能力

其次，两个新模型这次在编程能力上都有一定程度升级，测试结果表明：

其中o3 High取代谷歌Gemini-2.5，拿下编程第一。

顺带OpenAI这次还开源了一个本地代码智能体Codex CLI——

它是一种聊天驱动的开发方式，能够理解并执行本地代码库，兼容所有OpenAI模型，包括刚刚发布的o3、o4-mini和GPT-4.1。

宾大沃顿商学院教授Ethan Mollick，这次直接利用o3的推理+编程能力制作了一个小短片：

从完整制作过程来看，这里还同步考察了o3调用各项工具的能力。

第一步：理解需求；
第二步：使用编程库生成帧，并将这些帧组合成一个视频文件；
第三步：使用Python的PIL库（Pillow）来处理图像，使用imageio库来创建视频文件；
第四步：生成帧；
……

最后我们也简单实测了一把，重点考察一下o3和o4-mini的推理能力。

比如让它们分别帮忙看看“手相”，o3的结果如下：

o4-mini：

可以看到，两个模型对人物性格特征的判断大致相似，不过o3还额外给了一些提示建议。

p.s. 原图为AI生成，大家感兴趣可以自己试试~

One More Thing

有趣的是，有网友在实测o3的过程中还发现了一个现象：

o系列模型比GPT系列模型更容易错误地声称使用了代码工具

为此他们还专门写了一篇博客，其中揭露了：o3经常编造其为满足用户请求而采取的行动，并在用户质疑时详细地为这些编造进行辩解。

就像下面这样，模型声称它在笔记本电脑上运行了实际并不存在的代码。

而且通过进一步研究发现，这些伪造行为包括下面这些：

1、错误地声称执行代码，声称“我本地运行了这个”或“运行它产生了”后面跟着特定输出，而模型没有能力执行Python或其他编程语言；

2、编造详细的计算结果，包括特定的数值、统计数据和加密哈希值，表现为它们是实际执行输出而不是估计或示例；

3、……

同时，他们也初步提出了造成这一现象的可能原因：

首先就是模型幻觉和奖励黑客攻击，他们表示这些问题在o系列模型中尤为普遍。

另外，使用基于结果的强化学习可能会导致模型盲目猜测，并且某些行为（如模拟代码工具）可能会在某些任务上提高准确性，但在其他任务上造成混淆。

最后就是，o系列模型在处理连续对话时有一个限制，它们无法访问之前的推理过程，这可能导致模型在回答问题时出现不准确或不一致的情况。

顺便一提，即日起，ChatGPT的Plus、Pro会员以及Team用户，都能直接体验o3、o4-mini和o4-mini-high，而原本的o1、o3-mini和o3-mini-high则已悄然下架。

你怎么看OpenAI这次发布的o3和o4-mini？

博客：
https://transluce.org/investigating-o3-truthfulness

参考链接：
[1]https://x.com/goodside/status/1912604138518851990
[2]https://x.com/johnohallman/status/1912608446274498747
[3]https://x.com/bio_bootloader/status/1912566454823870801
[4]https://x.com/TransluceAI/status/1912552046269771985

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

🌟 点亮星标 🌟

科技前沿进展每日见

内容中包含的图片若涉及版权问题，请及时与我们联系删除