VLA-Arena: An Open-Source Framework for Benchmarking Vision-Language-Action Models

向作者提问

NEW

简介

尽管视觉-语言-动作模型（Vision-Language-Action models, VLAs）正迅速朝着通用机器人策略的方向发展，但人们仍难以对其能力边界和失效模式进行定量理解。为解决这一问题，我们提出一个名为VLA-Arena的综合性基准测试平台。我们设计了一种新颖的结构化任务框架，可在三个正交维度上量化任务难度：（1）任务结构，（2）语言指令，以及（3）视觉观测。该框架使我们能够系统性地构建具有细粒度难度等级的任务，从而精确衡量模型的能力边界。在任务结构方面，VLA-Arena包含的170项任务被划分为四个维度：安全性、干扰物、外推性和长视野。每项任务均设计有三个难度等级（L0–L2），且仅在L0级别上进行微调，以评估模型的泛化能力。与此正交的是，可对任意任务施加语言（W0–W4）和视觉（V0–V4）扰动，从而实现对模型鲁棒性的解耦分析。我们对当前最先进的VLAs进行了广泛评估，结果揭示出若干关键局限性，包括严重依赖记忆而非泛化、鲁棒性的不对称性、对安全约束缺乏考虑，以及无法将已学技能组合用于长视野任务。为推动针对这些挑战的研究并确保实验可复现，我们提供了完整的VLA-Arena框架，包括从任务定义到自动化评估的端到端工具链，以及用于微调的VLA-Arena-S/M/L数据集。本项目的基准、数据、模型及排行榜均可在 https://vla-arena.github.io 获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决当前Vision-Language-Action模型（VLAs）在作为通用机器人策略时缺乏系统性评估手段的问题，尤其是难以量化其能力边界和失败模式。尽管VLAs发展迅速，但现有基准测试无法精细刻画任务难度、语言与视觉鲁棒性，以及泛化能力。因此，构建一个可分解、可量化的评测基准是一个亟待解决的新问题。
关键思路

提出VLA-Arena，一个结构化的基准测试框架，通过三个正交维度——任务结构（Task Structure）、语言指令（Language Command）和视觉观测（Visual Observation）——对任务难度进行解耦建模。任务结构包含四个关键维度（安全、干扰物、外推性和长视野），每个任务设三级难度（L0-L2），仅在L0上微调以测试泛化能力；语言和视觉则分别引入五级扰动（W0-W4, V0-V4），实现对模型鲁棒性的独立分析。
其它亮点

设计了170个结构化任务，涵盖多维挑战；提出了端到端的工具链支持从任务定义到自动评估的全流程；发布了VLA-Arena-S/M/L数据集用于训练与评测；实验揭示了当前VLAs存在严重记忆倾向、泛化能力弱、安全性忽视、技能组合困难等关键缺陷；代码、数据、模型及排行榜已全面开源（https://vla-arena.github.io），极大促进可复现研究。
相关研究

1. Embodied AI Benchmarks: A Survey of Progress and Challenges 2. RT-2: Vision-Language-Action Models Transfer Web-scale Knowledge to Robot Control 3. OpenEQA: A Large-Scale Benchmark for Embodied Question Answering in Real Indoor Environments 4. BEHAVIOR-1K: Scalable Benchmarking for Robotic Task Generalization 5. LangChain: Bridging Language Models and Embodied Agents through Compositional Reasoning

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问