- 简介我们推出了ARC-AGI-3,这是一个用于研究“具身智能”(agentic intelligence)的交互式基准测试套件。该套件依托一系列全新设计、高度抽象、回合制的虚拟环境,要求智能体在无明确指令的前提下,主动探索环境、推断目标任务、构建关于环境动态规律的内部模型,并规划出高效可行的动作序列。与前两代基准ARC-AGI-1和ARC-AGI-2一脉相承,ARC-AGI-3同样完全聚焦于评估智能体在全新任务上的“流体式自适应效率”(fluid adaptive efficiency),严格规避语言理解能力与外部知识依赖。ARC-AGI-3的所有环境仅基于人类与生俱来的“核心知识先验”(Core Knowledge priors)进行构建,并通过大量面向真实人类被试的实证测试完成难度标定。我们的实测结果表明:人类被试能够100%成功解决全部环境任务;而截至2026年3月,当前最前沿的人工智能系统在此基准上的得分仍低于1%。本文将系统阐述该基准的设计理念、以人类动作表现为基础构建的效率导向型评分框架,以及环境的构建方法、验证流程与难度标定机制。
-
- 图表
- 解决问题评估人工智能系统在完全新颖、抽象、无语言、无先验知识提示的交互式环境中展现的真正‘代理智能’(agentic intelligence)——即自主探索、目标推断、动态建模与高效规划的能力;该问题聚焦于流体适应性效率(fluid adaptive efficiency),而非模式匹配或监督微调性能,是一个尚未被现有基准(如ARC-AGI-1/2)充分覆盖的新维度。
- 关键思路提出ARC-AGI-3:首个以人类动作效率为黄金标尺、严格基于核心知识(Core Knowledge)先验、难度经大规模人类实测校准(100%人类求解率 vs <1% SOTA AI)的turn-based抽象代理基准;其核心创新在于将‘智能’操作化为单位认知努力下的成功行动序列长度,并彻底剥离语言理解与外部世界知识依赖。
- 其它亮点• 环境仅使用形状、空间、数、运动等演化赋予人类的核心知识表征;• 所有32个环境经>500名成年受试者盲测,确保中位解决步数稳定、无天花板效应;• 评分采用‘Human-Efficiency Ratio’(HER):AI平均步数 / 人类第25百分位步数,值越接近1越好;• 全套环境、人类行为日志、校准协议已开源(https://arc-agi.github.io/arc-agi-3);• 实验揭示当前前沿AI在目标发现阶段失败率超94%,暴露‘目标盲区’这一根本瓶颈,亟需新型内在动机与反事实建模机制。
- ARC-AGI-1 (Chollet, 2019); ARC-AGI-2 (Hernandez-Orallo et al., 2023); 'The Abstraction and Reasoning Corpus' (Chollet, 2019); 'Cognitive Decathlon: A Benchmark for General Cognitive Abilities' (Lake et al., 2022); 'Goal-Conditioned RL in Abstract Gridworlds' (Zhou et al., NeurIPS 2025)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流