- 简介大型语言模型(LLM)代理在数字领域表现出色,但在向物理世界部署时面临显著障碍,主要难点在于难以建立并维持一个稳健的空间心智模型。我们识别出阻碍这一过渡的三大核心认知挑战:空间推理、通过心智模拟实现长视野的状态追踪,以及在部分观测条件下的主动探索。为独立评估这些能力,我们提出了CubeBench——一种以魔方为核心的新型生成式评测基准。CubeBench采用三层诊断框架,逐步评估代理的能力,从具备完整符号信息的基础状态追踪,到仅依赖部分视觉数据的主动探索。我们在主流大语言模型上的实验揭示了关键局限性,包括在所有长视野任务中均出现0.00%的通过率,暴露出其在长期规划方面的根本性缺陷。为此,我们还提出了一种诊断框架,通过引入外部求解工具来分离这些认知瓶颈。通过对失败模式的分析,我们提供了关键洞见,以指导更具物理世界适应能力的智能代理的未来发展。
-
- 图表
- 解决问题论文试图解决大型语言模型(LLM)在物理世界部署中缺乏稳健空间心智模型的问题,特别是其在空间推理、长视野状态追踪和部分观测下的主动探索这三大认知能力上的不足。这一问题尚未被系统性地识别和评估,因此具有新颖性。
- 关键思路提出CubeBench,一个以魔方为核心的生成式基准测试,通过三层诊断框架逐步评估LLM代理在不同信息条件下的认知能力:从完全符号信息的状态跟踪,到仅凭部分视觉输入的主动探索。关键创新在于将复杂物理交互分解为可量化的认知子任务,并引入外部求解器工具来隔离模型的规划与感知瓶颈。
- 其它亮点实验设计严谨,涵盖多个领先LLM,在所有长视野任务中均表现0.00%通过率,暴露出LLM在长期规划上的根本缺陷;CubeBench提供了一种可扩展的诊断范式,代码与数据有望推动物理代理研究;未来方向包括结合具身感知、记忆增强架构以及分层规划机制的研究。
- 1. Language Models as Agents: A Survey (2023) 2. Embodied AI: From Simulation to Real-World Robotics (2022) 3. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2022) 4. Voyager: An Open-Ended Embodied Agent with Large Language Models (2023) 5. Do As I Can, Not As I Say: Grounding Language in Robotic Affordances (2022)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流