RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies

2025年06月22日
  • 简介
    对现代通用型策略进行全面、无偏见且具有可比性的评估是一项独特的挑战:现有的机器人基准测试方法通常依赖于高度标准化的方式,要么通过指定固定的评估任务和环境,要么通过举办集中的“机器人挑战赛”,而这些方式难以扩展到对广泛任务和环境中的通用型策略进行有效评估。在本研究中,我们提出了 RoboArena,一种在真实世界中可扩展评估通用型机器人策略的新方法。与以往将评估标准化在固定任务、环境或地点上的做法不同,我们建议在一个分布式的评估者网络中开展众包式评估。重要的是,评估者可以自由选择他们要评估的任务和环境,从而轻松扩展任务和环境的多样性,但他们需要对策略对进行双盲评估。然后,通过对来自多样任务和环境的成对比较中汇总偏好反馈,我们可以得出策略的排序结果。我们在七所学术机构的评估者网络中,基于 DROID 机器人平台实现了我们的方法。通过在七种通用型策略之间开展的超过600次成对的真实机器人评估实验,我们证明了这种众包式评估方法相比传统的集中式评估方法,能够更准确地对现有通用型策略的性能进行排序,同时具备更高的可扩展性、鲁棒性和可信度。我们向研究社区开放了这一评估网络,希望它能够促进对通用型机器人策略进行更加便捷和广泛的比较研究。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决通用型机器人策略(generalist robot policies)在多样化任务和环境中的评估难题。当前的基准测试方法通常依赖于高度标准化的任务或集中式挑战,难以扩展到广泛的任务和环境多样性。这是一个较新的问题,随着通用型策略的发展而变得日益重要。
  • 关键思路
    提出RoboArena,通过分布式网络的评估者进行众包评估,每个评估者自由选择任务和环境,但需对策略进行双盲成对比较。通过聚合这些偏好反馈,构建策略排名。这种方法避免了传统标准化评估的局限性,同时提升了可扩展性、鲁棒性和公平性。
  • 其它亮点
    1. 在7所学术机构部署DROID机器人平台,完成超过600次真实机器人成对评估 2. 实验表明该众包评估方法比传统集中式评估更准确地排名通用策略 3. 评估网络开放给社区,具有良好的可扩展性和透明度 4. 为未来通用型策略的评估提供新范式
  • 相关研究
    1. Benchmarking General-Purpose Robots: A Survey and New Directions (2023) 2. Real-World Benchmarking of Robotic Manipulation Policies via Distributed Evaluation (CoRL 2022) 3. OpenX: Towards a Unified Real-World Benchmark for Robotic Manipulation (NeurIPS 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问