OpenAI 表示,其最新型号 o3 和 o4-mini 是其迄今为止最强大的型号。然而,研究表明,这些模型也更容易产生幻觉——至少是早期模型的两倍。

系统卡中,每个新 AI 模型都附有一份报告,并与上周的发布一起发布,OpenAI 报告说 o4-mini 的准确性较低,并且比 o1 和 o3 更容易产生幻觉。使用 PersonQA(一项基于公开信息的内部测试),该公司发现 o4-mini 在 48% 的回复中出现幻觉,是 o1 的三倍。

虽然 o4-mini 比 o3 更小、更便宜、更快,因此预计不会超过它,但 o3 仍然在 33% 的反应中出现幻觉,或者是 o1 的两倍。在这三个模型中,o3 在准确性方面得分最高。

“总体而言,o3 往往会提出更多的索赔,从而导致更准确的索赔以及更多不准确/幻觉的索赔,”OpenAI 的报告解释说。“需要更多的研究来了解这一结果的原因。”

幻觉,指的是捏造的声明、研究,甚至 URL,甚至继续困扰着 AI 领域最前沿的进步。目前没有完美的解决方案来预防或识别它们,尽管 OpenAI 已经尝试了一些方法

此外,事实核查是一个移动的目标,使其难以嵌入和扩展。事实核查涉及 AI 大多缺乏的某种程度的人类认知技能,例如常识、辨别力和情境化。因此,模型产生幻觉的程度在很大程度上取决于训练数据质量(以及访问互联网以获取当前信息)。

最大限度地减少训练数据中的虚假信息可以减少下游出现不真实陈述的可能性。然而,这种技术并不能防止幻觉,因为 AI 聊天机器人的许多创意选择仍未被完全理解。

总体而言,幻觉的风险往往会随着每个新模型的发布而缓慢降低,这就是 o3 和 o4-mini 的分数有些出乎意料的原因。尽管 o3 的准确率比 o1 高出 12 个百分点,但该模型的幻觉效果是 o1 的两倍,这一事实表明其准确率并没有与其能力成正比地增长。

与其他最新版本一样,o3 和 o4-mini 是推理模型,这意味着它们将解释提示以供用户查看所采取的步骤外部化。上周,独立研究实验室 Transluce 发布了其评估报告,该评估发现 o3 经常伪造它无法响应请求的行动,包括声称在编码环境中运行 Python,尽管聊天机器人没有这种能力。

更重要的是,该模型在被抓住时会加倍下注。“[o3] 在用户质疑时进一步证明幻觉输出是合理的,甚至声称它使用外部 MacBook Pro 进行计算并将输出复制到 ChatGPT 中,”报告解释说。Transluce 发现,这些关于运行代码的虚假声明在 o 系列模型(o1、o3-mini 和 o3)中比 GPT 系列模型(4.1 和 4o)更常见。

这个结果特别令人困惑,因为推理模型需要更长的时间才能提供更彻底、更高质量的答案。Transluce 的联合创始人莎拉·施韦特曼 (Sarah Schwettmann) 甚至告诉 TechCrunch,“o3 的幻觉率可能会使其变得不那么有用。

Transluce 的报告说:“尽管已知存在训练后的真实性问题,但它们并不能完全解释推理模型中幻觉的严重性增加。我们假设这些问题可能会因 o 系列推理模型中的特定设计选择而加剧,例如基于结果的强化学习和前几轮中省略了思维链。

上周,OpenAI 内部消息人士和第三方测试人员证实,该公司已大幅减少对包括 o3 在内的新型号的安全测试。虽然系统卡显示 o3 和 o4-mini 在对抗越狱尝试的稳健性方面与 o1 “大致相当”(这三个分数都在 96% 到 100% 之间),但这些幻觉分数引发了对更改测试时间表的非安全相关影响的质疑。

用户仍然有责任对任何 AI 模型的输出进行事实核查。当使用最新一代的推理模型时,这种策略似乎是明智的。

内容中包含的图片若涉及版权问题,请及时与我们联系删除