VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks

向作者提问

NEW

简介

通用实体智能体旨在理解用户的自然指令或意图，并精确行动以完成普遍任务。最近，基于基础模型尤其是视觉-语言-动作模型（VLAs）的方法在解决语言条件操作（LCM）任务方面展现了巨大的潜力。然而，现有的基准测试未能充分满足VLAs及其相关算法的需求。为了更好地定义在大型语言模型（LLMs）背景下的一般任务，并推动VLA研究的发展，我们提出了VLABench，这是一个用于评估普遍LCM任务学习的开源基准测试。VLABench提供了100个精心设计的任务类别，每个类别中都有强大的随机化，并且总共有2000多个对象。VLABench在四个关键方面脱颖而出：1) 需要世界知识和常识迁移的任务；2) 包含隐含人类意图的自然语言指令，而非模板化的指令；3) 需要多步推理的长期任务；4) 评估行动策略和语言模型能力。该基准测试评估了多种能力，包括对网格和纹理的理解、空间关系、语义指令、物理定律、知识迁移和推理等。为了支持下游微调，我们通过结合启发式技能和先验信息的自动化框架收集了高质量的训练数据。实验结果表明，当前最先进的预训练VLA和基于VLM的工作流在我们的任务中都面临挑战。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决现有基准测试无法充分满足视觉-语言-动作模型（VLAs）和相关算法需求的问题，特别是在评估语言条件下的操作任务（LCM）时。这是一个新问题，因为随着基础模型特别是VLA的发展，需要更复杂和全面的基准来评估这些模型的能力。
关键思路

关键思路是引入一个名为VLABench的新基准，该基准包含100个精心设计的任务类别，涵盖2000多个对象，并具有强大的随机化。与现有基准不同，VLABench强调了世界知识、常识迁移、自然语言指令的理解、多步骤推理以及对动作策略和语言模型能力的综合评估。这使得VLABench不仅能够评估模型在特定任务上的表现，还能测试其泛化能力和理解复杂指令的能力。
其它亮点

论文的亮点包括：1) 强调世界知识和常识迁移的任务；2) 使用自然语言指令而非模板化的指令；3) 设计了需要多步骤推理的长期任务；4) 综合评估动作策略和语言模型的能力。此外，作者还提供了高质量的训练数据集，支持下游微调，并且实验结果表明，即使是当前最先进的预训练VLA和基于VLM的工作流也面临挑战。所有数据和代码均已开源，为未来研究提供了坚实的基础。
相关研究

最近在这个领域中，相关的研究包括《Learning to Act by Predicting the Future》、《Visual Imitation Learning via Video Prediction》和《Language-Conditioned Imitation Learning for Robotic Manipulation》等。这些研究主要集中在如何通过预测未来或模仿学习来提高机器人的操作能力，而VLABench则进一步推动了这一领域的研究，特别是在评估模型处理复杂任务和理解自然语言指令方面。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问