Butter-Bench: Evaluating LLM Controlled Robots for Practical Intelligence

2025年10月23日
  • 简介
    我们提出 Butter-Bench,这是一个用于评估大语言模型(LLM)控制机器人实际智能能力的基准测试,其中“实际智能”被定义为在物理世界复杂环境中有效应对和导航的能力。目前最先进的机器人系统采用分层架构,由大语言模型负责高层级推理,视觉语言动作(VLA)模型负责低层级控制。Butter-Bench 将大语言模型部分从 VLA 中独立出来进行评估。尽管大语言模型在需要分析性智能的评测中已多次超越人类,但我们发现,在 Butter-Bench 上人类的表现仍远超大语言模型。表现最好的大语言模型得分为 40%,而人类平均得分为 95%。大语言模型在多步骤空间规划和社会理解方面表现最差。我们还评估了经过具身推理微调的大语言模型,结论是此类训练并未提升它们在 Butter-Bench 上的得分。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图评估大语言模型(LLM)在控制机器人时的‘实用智能’能力,即在复杂、混乱的真实物理环境中进行推理和决策的能力。特别是关注LLM在脱离低层视觉语言动作(VLA)模型支持的情况下,独立处理多步任务规划、空间推理和社会理解的能力。这个问题相对较新,聚焦于LLM在具身智能中的实际局限性,而非传统的分析性智能。
  • 关键思路
    提出Butter-Bench这一新基准,专门用于评估LLM在机器人任务中的高层推理能力,将LLM与VLA模型解耦,从而孤立地测试其在现实世界任务中的表现。关键创新在于强调‘实用智能’而非语言或逻辑智能,并揭示当前LLM在空间规划和社会理解方面的根本短板。
  • 其它亮点
    实验设计通过模拟真实家庭环境中的多步骤任务来评估LLM,包含空间推理、物体操作和社会交互场景。使用人类表现作为基准,发现最佳LLM仅得40%,而人类平均达95%。特别指出:针对具身推理微调的LLM并未提升成绩,说明当前训练方法不足以弥补差距。数据集和评估框架有望推动未来研究,但论文未明确提及代码是否开源。值得深入研究的方向包括如何增强LLM的空间表征能力和社会常识建模。
  • 相关研究
    1. 'PaLM-E: An Embodied Multimodal Language Model' (2023) 2. 'RT-2: Vision-Language-Action Models for Robotic Manipulation' (2023) 3. 'Embodied AI with Language, Action, and Visual History' (CVPR 2023) 4. 'Can Large Language Models Plan for Robotic Tasks?' (ICRA 2023) 5. 'Do As I Can, Not As I Say: Grounding Language in Robotic Actions' (2022)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问