通用人工智能(AGI)或许将成为人类历史上最重要的技术突破,但由于 AGI 缺乏明确的定义,当今专用人工智能(AI)与人类认知水平之间的差距变得模糊不清。


为解决这一问题,人工智能安全中心(CAIS)主任 Dan Hendrycks、图灵奖得主 Yoshua Bengio 联合众多业内企业家、学者提出了一个可量化框架,将 AGI 定义为:


在认知多样性与熟练度上,媲美或超过受过良好教育的成年人的 AI”。

an AI that can match or exceed the cognitive versatility and proficiency of a well-educated adult.


这一定义强调,通用智能不仅要求在狭窄领域内的专业表现,还要求具备人类认知所特有的技能广度(多功能性)深度(熟练度)



论文链接:https://arxiv.org/abs/2510.18212


研究结果表明,在这一框架下,GPT-4 的 AGI 得分仅为 27%,GPT-5 的得分也只有 57%


图|GPT-4 和 GPT-5 的 AGI 得分。


这表明,尽管当前的AI在复杂基准上表现出色,但它缺乏许多对类人通用智能至关重要的核心认知能力。


更重要的是,这一框架提供了一个结构化、可量化、更具鲁棒性的方法来评估 AGI,超越了狭隘的、专业化的基准测试



AGI 的 10 个核心能力


为系统检验 AI 系统的具体认知能力,研究团队基于卡特尔-霍恩-卡罗尔理论(人类智能最经实证验证的模型)构建方法论。该框架将通用智能分解为 10 个核心认知领域——包括推理、记忆与感知等——并采用成熟的人类心理测量测试套件评估 AI 系统。


图|所提出 AGI 定义下的 10 个核心组成。


具体内容如下:


1.通用知识


通用知识(General Knowledge),即“大多数受过良好教育的人所熟悉的知识,或重要到大多数成年人都接触过的知识”。在这一维度上,研究团队从常识、科学、社会科学、历史、文化等方面对 GPT-5、GPT-4 进行了评估,结果显示,GPT-5 的整体正确率仅为 9%。



2.读写能力


读写能力(Reading and Writing Ability),即“在阅读和写作中掌握所有陈述性知识和程序性技能”。在这一维度上,研究团队从常字词识别、阅读理解、写作能力、语法等方面对 GPT-5、GPT-4 进行了评估,结果显示,GPT-5 的整体正确率仅为 10%。



3.数学能力


数学能力(Mathematical Ability),即“数学知识和技能的深度和广度”。在这一维度上,研究团队从算数、代数、几何、概率、微积分等方面对 GPT-5、GPT-4 进行了评估,结果显示,GPT-5 的整体正确率仅为 10%。



4.即时推理能力


即时推理能力(On-the-Spot Reasoning),即“审慎且灵活地控制注意力,以解决那些无法仅依靠以往习得的习惯、图式和脚本完成的全新即时的问题”。在这一维度上,研究团队从算演绎、归纳、心智理论、规划、适应等方面对 GPT-5、GPT-4 进行了评估,结果显示,GPT-5 的整体正确率仅为 7%。



5.工作记忆能力


工作记忆能力(Working Memory),即“在注意力集中状态下保存、处理并更新信息的能力”。在这一维度上,研究团队从听觉、视觉、跨模态模型等方面对 GPT-5、GPT-4 进行了评估,结果显示,GPT-5 的整体正确率仅为 4%。



6.长期记忆储存能力


长期记忆储存能力(Long-Term Memory Storage),即“稳定地获取、巩固并存储来自近期经验的新信息的能力"。在这一维度上,研究团队从联想记忆、意义记忆、逐字记忆等方面对 GPT-5、GPT-4 进行了评估,结果显示,GPT-5 的整体正确率为 0%。



7.长期记忆检索能力


长期记忆检索能力(Long-Term Memory Retrieval),即“能够流畅且精确地从长时记忆中检索信息的能力”。在这一维度上,研究团队从提取流畅性、幻觉等方面对 GPT-5、GPT-4 进行了评估,结果显示,GPT-5 的整体正确率仅为 4%。



8.视觉处理能力


视觉处理能力(Visual Processing),即“分析与生成自然或非自然图像和视频的能力”。在这一维度上,研究团队从感知、生成、推理和空间扫描等方面对 GPT-5、GPT-4 进行了评估,结果显示,GPT-5 的整体正确率仅为 4%。



9.听觉处理能力


听觉处理能力(Auditory Processing),即“区分、记忆、推理并处理听觉刺激的能力”。在这一维度上,研究团队从语音编码、语音识别、节奏、音色、音准等方面对 GPT-5、GPT-4 进行了评估,结果显示,GPT-5 的整体正确率仅为 6%



10.速度


速度(Speed),即“快速完成认知任务的能力”。在这一维度上,研究团队从语搜索、对比、阅读、书写、数字等方面对 GPT-5、GPT-4 进行了评估,结果显示,GPT-5 的整体正确率仅为 3%。



更多评估细节详见论文。



局限性与未来挑战


以上结果凸显了当前 AI 与人类水平的通用智能之间的能力鸿沟,具体表现在:


1.关键能力欠缺


尽管当前 AI 在通用知识、读写能力和数学能力等方面表现出高熟练度,但它们在基础认知机制上依然存在严重缺陷;同时,长期记忆存储是亟需突破的瓶颈,当前 AI 的得分接近 0%;而且,当前 AI 缺乏持续学习能力,需要在每次交互中重新学习上下文,效率低下;此外,视觉推理能力的欠缺限制了 AI Agent 与复杂数字环境的交互。


图|GPT-4 和 GPT-5 的能力分布。


2.能力扭曲与通用幻觉


AI 的“锯齿状”能力常常导致所谓的“能力扭曲”,即 AI 会利用某些方面的强项来弥补其他方面的弱点,比如依赖庞大的上下文窗口和 RAG 技术来掩盖长期记忆存储能力的缺乏。这种权宜之计制造出了一种脆弱的“通用智能幻觉”,最终导致对 AGI 何时到来的不准确评估。


当然,这一「AGI 定义」也存在一些局限性。


首先,这一定义并不全面,他们有意排除了某些类型的能力,如 Gardner 提出的多元智能理论中的动觉智能等。


再者,研究框架的示例主要基于英语语境,未考虑文化差异。未来研究可将测试扩展至不同语言与文化背景;


另外,研究团队的操作化存在内在限制:通用知识测试是选择性的,无法涵盖所有学科领域。“100% 的 AGI 分数”仅意味着在这些特定维度上表现优异,并不等同于“现实中的高学历或全面教育背景”。


此外,当前方案为每项广泛能力分配相同权重(10%),以突出广度。然而,这种权重配置只是众多可能方案之一。未来可探索更具灵活性的权重方案和任务组合。


最后,AGI 总分这种单一数值可能掩盖 AI 的严重缺陷。例如,一个 AGI 总分 90%,但长期记忆存储为 0%,实际上会表现出类似“遗忘症”的功能障碍。


在论文的最后,研究团队表示,实现 AGI 依然需要解决诸多挑战


  • 机器学习社区旨在测量抽象推理能力的 ARC-AGI 挑战赛,就体现在及时推理任务中;

  • Meta 试图创建包含直觉物理理解的世界模型,这体现在视频异常检测任务中;

  • 空间导航记忆的挑战反映了李飞飞的初创公司 World-Labs 的一个核心目标;

  • 幻觉和持续学习方面的挑战,也需要被解决。


因此,“AGI 得分在明年内达到 100% 的可能性不大”


整理:潇潇
如需转载或投稿,请直接在本文章评论区内留言

内容中包含的图片若涉及版权问题,请及时与我们联系删除