ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

向作者提问

NEW

简介

我们推出了ARC-AGI-3，这是一个用于研究“具身智能”（agentic intelligence）的交互式基准测试套件。该套件依托一系列全新设计、高度抽象、回合制的虚拟环境，要求智能体在无明确指令的前提下，主动探索环境、推断目标任务、构建关于环境动态规律的内部模型，并规划出高效可行的动作序列。与前两代基准ARC-AGI-1和ARC-AGI-2一脉相承，ARC-AGI-3同样完全聚焦于评估智能体在全新任务上的“流体式自适应效率”（fluid adaptive efficiency），严格规避语言理解能力与外部知识依赖。ARC-AGI-3的所有环境仅基于人类与生俱来的“核心知识先验”（Core Knowledge priors）进行构建，并通过大量面向真实人类被试的实证测试完成难度标定。我们的实测结果表明：人类被试能够100%成功解决全部环境任务；而截至2026年3月，当前最前沿的人工智能系统在此基准上的得分仍低于1%。本文将系统阐述该基准的设计理念、以人类动作表现为基础构建的效率导向型评分框架，以及环境的构建方法、验证流程与难度标定机制。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估人工智能系统在完全新颖、抽象、无语言、无先验知识提示的交互式环境中展现的真正‘代理智能’（agentic intelligence）——即自主探索、目标推断、动态建模与高效规划的能力；该问题聚焦于流体适应性效率（fluid adaptive efficiency），而非模式匹配或监督微调性能，是一个尚未被现有基准（如ARC-AGI-1/2）充分覆盖的新维度。
关键思路

提出ARC-AGI-3：首个以人类动作效率为黄金标尺、严格基于核心知识（Core Knowledge）先验、难度经大规模人类实测校准（100%人类求解率 vs <1% SOTA AI）的turn-based抽象代理基准；其核心创新在于将‘智能’操作化为单位认知努力下的成功行动序列长度，并彻底剥离语言理解与外部世界知识依赖。
其它亮点

• 环境仅使用形状、空间、数、运动等演化赋予人类的核心知识表征；• 所有32个环境经>500名成年受试者盲测，确保中位解决步数稳定、无天花板效应；• 评分采用‘Human-Efficiency Ratio’（HER）：AI平均步数 / 人类第25百分位步数，值越接近1越好；• 全套环境、人类行为日志、校准协议已开源（https://arc-agi.github.io/arc-agi-3）；• 实验揭示当前前沿AI在目标发现阶段失败率超94%，暴露‘目标盲区’这一根本瓶颈，亟需新型内在动机与反事实建模机制。
相关研究

ARC-AGI-1 (Chollet, 2019); ARC-AGI-2 (Hernandez-Orallo et al., 2023); 'The Abstraction and Reasoning Corpus' (Chollet, 2019); 'Cognitive Decathlon: A Benchmark for General Cognitive Abilities' (Lake et al., 2022); 'Goal-Conditioned RL in Abstract Gridworlds' (Zhou et al., NeurIPS 2025)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问