VLA-Arena: An Open-Source Framework for Benchmarking Vision-Language-Action Models

2025年12月27日
  • 简介
    尽管视觉-语言-动作模型(Vision-Language-Action models, VLAs)正迅速朝着通用机器人策略的方向发展,但人们仍难以对其能力边界和失效模式进行定量理解。为解决这一问题,我们提出一个名为VLA-Arena的综合性基准测试平台。我们设计了一种新颖的结构化任务框架,可在三个正交维度上量化任务难度:(1)任务结构,(2)语言指令,以及(3)视觉观测。该框架使我们能够系统性地构建具有细粒度难度等级的任务,从而精确衡量模型的能力边界。在任务结构方面,VLA-Arena包含的170项任务被划分为四个维度:安全性、干扰物、外推性和长视野。每项任务均设计有三个难度等级(L0–L2),且仅在L0级别上进行微调,以评估模型的泛化能力。与此正交的是,可对任意任务施加语言(W0–W4)和视觉(V0–V4)扰动,从而实现对模型鲁棒性的解耦分析。我们对当前最先进的VLAs进行了广泛评估,结果揭示出若干关键局限性,包括严重依赖记忆而非泛化、鲁棒性的不对称性、对安全约束缺乏考虑,以及无法将已学技能组合用于长视野任务。为推动针对这些挑战的研究并确保实验可复现,我们提供了完整的VLA-Arena框架,包括从任务定义到自动化评估的端到端工具链,以及用于微调的VLA-Arena-S/M/L数据集。本项目的基准、数据、模型及排行榜均可在 https://vla-arena.github.io 获取。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决当前Vision-Language-Action模型(VLAs)在作为通用机器人策略时缺乏系统性评估手段的问题,尤其是难以量化其能力边界和失败模式。尽管VLAs发展迅速,但现有基准测试无法精细刻画任务难度、语言与视觉鲁棒性,以及泛化能力。因此,构建一个可分解、可量化的评测基准是一个亟待解决的新问题。
  • 关键思路
    提出VLA-Arena,一个结构化的基准测试框架,通过三个正交维度——任务结构(Task Structure)、语言指令(Language Command)和视觉观测(Visual Observation)——对任务难度进行解耦建模。任务结构包含四个关键维度(安全、干扰物、外推性和长视野),每个任务设三级难度(L0-L2),仅在L0上微调以测试泛化能力;语言和视觉则分别引入五级扰动(W0-W4, V0-V4),实现对模型鲁棒性的独立分析。
  • 其它亮点
    设计了170个结构化任务,涵盖多维挑战;提出了端到端的工具链支持从任务定义到自动评估的全流程;发布了VLA-Arena-S/M/L数据集用于训练与评测;实验揭示了当前VLAs存在严重记忆倾向、泛化能力弱、安全性忽视、技能组合困难等关键缺陷;代码、数据、模型及排行榜已全面开源(https://vla-arena.github.io),极大促进可复现研究。
  • 相关研究
    1. Embodied AI Benchmarks: A Survey of Progress and Challenges 2. RT-2: Vision-Language-Action Models Transfer Web-scale Knowledge to Robot Control 3. OpenEQA: A Large-Scale Benchmark for Embodied Question Answering in Real Indoor Environments 4. BEHAVIOR-1K: Scalable Benchmarking for Robotic Task Generalization 5. LangChain: Bridging Language Models and Embodied Agents through Compositional Reasoning
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问