警告!不要在 ChatGPT 里问最新 o1 模型是怎么思考的——只要尝试几次,OpenAI 就会发邮件威胁撤销你的使用资格。请停止此活动,确保您使用 ChatGPT 时符合我们的使用条款。违反此条款的行为可能导致失去 OpenAI o1 访问权限。
大模型新范式 o1 横空出世不到 24 小时,就已经有不少用户反馈收到这封警告邮件,引起众人不满。有人反馈只要提示词里带「reasoning trace」、「show your chain of thought」等关键词就会收到警告。甚至完全避免出现关键词,使用其他手段诱导模型绕过限制都会被检测到。这些用户都在试图套话 o1,让他复述出完整的内部思维过程,也就是全部原始 reasoning tokens。目前,大家在 ChatGPT 界面通过展开按钮能看到的,只是一份对原始思维过程的摘要。点击关注,每天更新深度 AI 行业洞察
01
OpenAI 越来越不 Open 了
实际上,在 o1 发布时 OpenAI 就给出了隐藏模型完整思维过程的理由。总结一下:OpenAI 内部需要监测模型的思维过程,因此不能在这些原始 tokens 中加入安全限制,也就不方便让用户看到。有人指出,o1思维过程就是其他模型最好的训练数据,所以 OpenAI 不想这些宝贵数据被别的公司扒走。也有人认为这说明 o1 真的没有什么护城河,一旦思维过程暴露就很容易被别人复制。以及「这是让我们只需盲目相信 AI 的答案,不用做出任何解释吗?」对于 o1 模型背后的技术原理,这次透露的相当少,有效信息几乎只有「用了强化学习」。02
o1 就是草莓,但并非 GPT-5
目前可以确定 o1 就是 OpenAI 炒作很久了的「草莓」,或者说是用了「草莓」所代表的方法。但他可以算作下一代模型 GPT-5 么,还是只是 GPT-4.X?越来越多的人开始怀疑,它只是基于 GPT-4o 做的工程调整。知名爆料账号 Flowers(原 Flowers from the future)称,OpenAI 员工内部把 o1 称做「带推理的 4o」。并且他声称很多 OpenAI 员工默默点赞了这条爆料,上面的截图也正是来自 OpenAI 员工。但马斯克前一阵把推特改版成除了楼主以外其他人无法看到谁点赞了什么,所以目前还无法证实这条消息。在 OpenAI 开发者账号刚刚举办的「有问必答」(Ask Me Anything)活动中,Flowers 也做了追问。OpenAI 员工在这里回答了很多问题,但回避了这个点赞很多排在前面的问题。甚至奥特曼本曼刚刚又出来当谜语人,暗示「草莓」已经告一段落,下一款代号「猎户座」Orion的新模型还在路上。此前有消息称「猎户座」是 OpenAI 的下一代新旗舰模型,由「草莓」也就是 o1 生成的合成数据训练。说回到已发布的 o1,围绕它的另一种批评声音是「不符合科研规范」。例如没有引用之前推理时间计算的相关工作,同时也缺乏与其他公司最先进模型的比较。针对前一点,有人指出 OpenAI 已经不再是一个研究实验室,应该被视为一家商业公司了。有时他们仍会假装自己是个研究实验室,目的是招募想要做研究工作的人才。
不过针对后一点,既然 API 发布了,要不要与其他前沿模型比较就由不得你了,很多第三方 Benchmark 已陆续跑出结果。在 Keras 之父举办的 100 万美金AGI Prize比赛中,o1-preview 和 o1-mini 两个版本在公开测试集上都超过了自家 GPT-4o。但 o1-preview与隔壁 Claude 3.5-Sonnet 只是打了个平手。在 o1 着重宣传的代码能力上,开源结对编程工具 aider团队运行了测试,o1 系列也没有取得明显优势。对于整个代码重写任务,o1-preiview 取得 79.7 分,Claude-3.5-Sonnet 取得 75.2 分,o1 领先 4.5 分。但对于更实用的代码编辑任务,o1-preview 反而落后于 Claude-3.5-Sonnet,有 2.2 分的差距。另外 aider 团队提示,如果目前想用 o1 系列替代 Claude 编程,成本上要高很多。与 OpenAI 有合作关系的「AI 程序员」Devin团队,已经提前拿到了 o1 访问资格。在他们的测试中,由 o1 系列驱动 Devin 基础版本,与 GPT-4o 相比获得非常大的提升。不过相比已发布的 Devin 生产版本还是有较大差距,主要是由于 Devin 生产版本在专有数据上进行了训练。另外根基 Devin 团队分享,o1 在得出正确的解决方案之前通常会回溯并考虑不同的选项,并且不太可能出现幻觉或自信地错误。使用 o1-preview 时,Devin更有可能正确诊断 bug 的根本原因,而不是解决问题的症状。在更重视数学和逻辑推理的Livebench榜单中,o1-preview 在代码单项落后的情况下,总分上超过 Claude-3.5-Sonnet 并拉开明显差距。Livebench 团队分享这还只是初步结果,因为很多测试中还内置了「请一步一步地思考」等提示词技巧,这并不是使用 o1 的最佳方法。在中文大模型综合测评基准SuperCLUE 的中文复杂任务高阶推理测试中,o1-preview 的推理能力也大幅领先。最后总结一下,使用 o1 模型还需要注意的一些地方:- 成本非常高,1 百万输出 tokens 就要 60 美元,价格一夜回到 GPT-3 时代
- 隐藏的 resoning tokens 也是算在输出 tokens 中,看不到,但是要付费
- 大多数任务最好先使用 GPT-4o,发现不够用了再切换 o1,以节省成本。
- 代码任务仍然优先使用 Claude-3.5-Sonnet
总之围绕 OpenAI 新模型 o1,开发者社区还有很多疑问。o1 开启了 AI 高阶推理的新范式,但它本身还不算完善,如何发挥他的最大价值还有待探索。在此背景下,OpenAI 举办的「有问必答」活动,在 4 个小时内就收到上百条提问。03
OpenAI 员工「有问必答」
首先对于这个突然发布的新模型,很多人好奇为什么 OpenAI 给它取了 o1 这样一个名字?这是因为在 OpenAI 看了,o1 代表了 AI 能力的一个新的层级,因此对「计数器」进行了重置,而 o 则代表 OpenAI。就像 o1 发布时奥特曼说的,可以进行复杂推理的 o1,是一个新范式的开始。对于其中 preview 和 mini 两个版本号,OpenAI 科学家也确认了网友的一些猜测——preview 是一个临时版本,正式版将在未来上线(实际上 preview 版本是 o1 的一个早期 checkpoint);而mini 版不保证近期之内会有更新。配合 OpenAI 成员 Kevin Lu 之前发布的这张图来看,就更加清晰明了了。与 preview 相比,mini 在某些任务上表现出色,尤其是与代码相关的任务,还可以探索更多的思维链,但世界知识相对少些。对此,OpenAI 科学家赵盛佳的解释是,mini 是一个高度专门化的模型,只关注少部分的能力,所以可以更深入。关于 o1 的运作方式,OpenAI 科学家 Noam Brown 也明确表示,并非是像部分网友认为的模型+CoT 组成的「系统」,而是一个已经被训练得原生具备生成思维链能力的模型。不过推理过程中的思维链会被隐藏,并且官方已经明确了没有向用户展示有关 token 的计划。对此 OpenAI 透露的为数不多的消息是,CoT 的相关 token 是总结性的,且不保证完全和推理过程匹配。除了推理模式,在这次问答活动中还能够得知,o1 与 GPT-4o 相比可以处理更长的文本,而且未来还会继续增加。表现上,在 OpenAI 内部的测试中,o1 显现出了哲学推理能力,可以思考诸如「生命是什么?」之类的哲学问题。研究人员还使用 o1 创建了一个 GitHub 机器人,能够将代码 ping 给所有者以供审核。当然对于一些非推理性质的任务,比如创意写作,o1 的表现相比 GPT-4o 提升并不明显,甚至有时还要略逊一筹。另外综合一些提问来看,对于网友们关心的一些未上线功能,OpenAI 表示正在或有计划研究,但没有明确的上线时间:- 暂不支持工具调用,但函数调用、代码解释器都在未来计划之中
- 未来 API 更新将加入结构化输出、系统提示词、提示词缓存功能
- API 用户将可以自行设定对推理时间和 token 消耗的限制
- o1 具有多模态能力,瞄准的是 MMMU 等数据集上的 SOTA,之后将实装
性能上,OpenAI 也正在着手降低延迟和推理所需时间。最后是人们,尤其是 API 用户关心的价格问题,毕竟考虑到将推理过程计入输出 token,o1 的定价还是比较高的。OpenAI 表示「将遵循每 1-2 年降价的趋势」,并且在使用量限制变得更宽松时,批量 API 定价也会上线。网页/APP 端的 Plus 用户,目前则是要受到每周 preview30 条+mini50 条消息的限制。不过好消息是,就在今天凌晨,由于人们对 o1 实在太热情,导致很多人很快就把额度用完,所以OpenAI 特例把额度重置了一次。那么你对 o1 还有哪些疑问或期待?欢迎评论区交流。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢