- 简介视觉-语言-动作(VLA)模型已实现基于语言条件的长视野机器人操作,但目前大多数系统仅限于使用夹爪。由于动作空间扩大、手与物体之间频繁遮挡,以及真实机器人数据采集成本高昂,将VLA策略扩展到具有高自由度(DoF)灵巧手的双手机器人仍面临巨大挑战。我们提出了GR-Dexter,这是一种面向双手机巧手机器人、基于VLA的通用操作任务的整体性硬件-模型-数据框架。我们的方法结合了紧凑型21自由度机器人手的设计、一种直观的双手机械遥操作系统以采集真实机器人数据,以及一种训练方案——该方案融合了遥操作获取的机器人轨迹、大规模视觉-语言数据集,以及精心筛选的跨具身形态(cross-embodiment)数据集。在涵盖长视野日常操作和可泛化的抓取放置任务的真实世界评估中,GR-Dexter展现出优异的领域内性能,并对未见过的物体和未见过的指令表现出更强的鲁棒性。我们希望GR-Dexter能成为迈向通用型灵巧手机器人操作的一条切实可行的路径。
-
- 图表
- 解决问题论文试图解决现有视觉-语言-动作(VLA)模型在多指灵巧手双手机器人上的扩展难题。当前大多数VLA系统局限于简单夹爪,难以应用于高自由度、动作空间更大、存在频繁手-物遮挡的双手机器人,且真实机器人数据采集成本高昂。这是一个尚未被充分探索的新问题,尤其在实现通用、长视野、语言条件下的灵巧操作方面仍具挑战。
- 关键思路提出GR-Dexter框架,结合三方面创新:1)设计紧凑的21自由度灵巧机械手硬件;2)开发直观的双手机器人遥操作系统以高效采集真实机器人轨迹;3)训练策略融合遥操作数据、大规模视觉-语言数据和跨具身形态数据,提升泛化能力。该方法首次将VLA范式完整应用于双手机器人灵巧操作,实现了从硬件到模型到数据的端到端协同设计。
- 其它亮点实验涵盖真实世界中的长视野日常操作与通用抓放任务,验证了GR-Dexter在领域内任务的高性能以及对未见物体和未见指令的鲁棒性。数据采集依托自研遥操作系统,显著降低真实数据获取成本。使用了自采集的真实机器人数据、大规模视觉语言数据及跨具身数据集。代码与数据是否开源未明确提及,但其遥操作设计和数据融合策略为后续研究提供了可复现路径。值得深入的方向包括跨形态迁移学习优化、更复杂任务的长期规划、以及低成本遥操作系统的推广。
- 1. "PaLM-E: An Embodied Multimodal Language Model" (IEEE ICRA 2023) 2. "RT-2: Vision-Language-Action Models for Direct Control" (arXiv 2023) 3. "OpenVLA: Open Foundation Models for Vision-Language-Action Control" (arXiv 2024) 4. "DualArm: A Framework for Learning Bimanual Manipulation from Human Demonstrations" (RSS 2022) 5. "Dense Object Nets for Pose Estimation and Imitation Learning in Multi-Object Scenes" (CoRL 2021)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流