CubeBench: Diagnosing Interactive, Long-Horizon Spatial Reasoning Under Partial Observations

向作者提问

NEW

简介

大型语言模型（LLM）代理在数字领域表现出色，但在向物理世界部署时面临显著障碍，主要难点在于难以建立并维持一个稳健的空间心智模型。我们识别出阻碍这一过渡的三大核心认知挑战：空间推理、通过心智模拟实现长视野的状态追踪，以及在部分观测条件下的主动探索。为独立评估这些能力，我们提出了CubeBench——一种以魔方为核心的新型生成式评测基准。CubeBench采用三层诊断框架，逐步评估代理的能力，从具备完整符号信息的基础状态追踪，到仅依赖部分视觉数据的主动探索。我们在主流大语言模型上的实验揭示了关键局限性，包括在所有长视野任务中均出现0.00%的通过率，暴露出其在长期规划方面的根本性缺陷。为此，我们还提出了一种诊断框架，通过引入外部求解工具来分离这些认知瓶颈。通过对失败模式的分析，我们提供了关键洞见，以指导更具物理世界适应能力的智能代理的未来发展。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大型语言模型（LLM）在物理世界部署中缺乏稳健空间心智模型的问题，特别是其在空间推理、长视野状态追踪和部分观测下的主动探索这三大认知能力上的不足。这一问题尚未被系统性地识别和评估，因此具有新颖性。
关键思路

提出CubeBench，一个以魔方为核心的生成式基准测试，通过三层诊断框架逐步评估LLM代理在不同信息条件下的认知能力：从完全符号信息的状态跟踪，到仅凭部分视觉输入的主动探索。关键创新在于将复杂物理交互分解为可量化的认知子任务，并引入外部求解器工具来隔离模型的规划与感知瓶颈。
其它亮点

实验设计严谨，涵盖多个领先LLM，在所有长视野任务中均表现0.00%通过率，暴露出LLM在长期规划上的根本缺陷；CubeBench提供了一种可扩展的诊断范式，代码与数据有望推动物理代理研究；未来方向包括结合具身感知、记忆增强架构以及分层规划机制的研究。
相关研究

1. Language Models as Agents: A Survey (2023) 2. Embodied AI: From Simulation to Real-World Robotics (2022) 3. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2022) 4. Voyager: An Open-Ended Embodied Agent with Large Language Models (2023) 5. Do As I Can, Not As I Say: Grounding Language in Robotic Affordances (2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问