GR-Dexter Technical Report - 智源社区论文

向作者提问

NEW

简介

视觉-语言-动作（VLA）模型已实现基于语言条件的长视野机器人操作，但目前大多数系统仅限于使用夹爪。由于动作空间扩大、手与物体之间频繁遮挡，以及真实机器人数据采集成本高昂，将VLA策略扩展到具有高自由度（DoF）灵巧手的双手机器人仍面临巨大挑战。我们提出了GR-Dexter，这是一种面向双手机巧手机器人、基于VLA的通用操作任务的整体性硬件-模型-数据框架。我们的方法结合了紧凑型21自由度机器人手的设计、一种直观的双手机械遥操作系统以采集真实机器人数据，以及一种训练方案——该方案融合了遥操作获取的机器人轨迹、大规模视觉-语言数据集，以及精心筛选的跨具身形态（cross-embodiment）数据集。在涵盖长视野日常操作和可泛化的抓取放置任务的真实世界评估中，GR-Dexter展现出优异的领域内性能，并对未见过的物体和未见过的指令表现出更强的鲁棒性。我们希望GR-Dexter能成为迈向通用型灵巧手机器人操作的一条切实可行的路径。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决现有视觉-语言-动作（VLA）模型在多指灵巧手双手机器人上的扩展难题。当前大多数VLA系统局限于简单夹爪，难以应用于高自由度、动作空间更大、存在频繁手-物遮挡的双手机器人，且真实机器人数据采集成本高昂。这是一个尚未被充分探索的新问题，尤其在实现通用、长视野、语言条件下的灵巧操作方面仍具挑战。
关键思路

提出GR-Dexter框架，结合三方面创新：1）设计紧凑的21自由度灵巧机械手硬件；2）开发直观的双手机器人遥操作系统以高效采集真实机器人轨迹；3）训练策略融合遥操作数据、大规模视觉-语言数据和跨具身形态数据，提升泛化能力。该方法首次将VLA范式完整应用于双手机器人灵巧操作，实现了从硬件到模型到数据的端到端协同设计。
其它亮点

实验涵盖真实世界中的长视野日常操作与通用抓放任务，验证了GR-Dexter在领域内任务的高性能以及对未见物体和未见指令的鲁棒性。数据采集依托自研遥操作系统，显著降低真实数据获取成本。使用了自采集的真实机器人数据、大规模视觉语言数据及跨具身数据集。代码与数据是否开源未明确提及，但其遥操作设计和数据融合策略为后续研究提供了可复现路径。值得深入的方向包括跨形态迁移学习优化、更复杂任务的长期规划、以及低成本遥操作系统的推广。
相关研究

1. "PaLM-E: An Embodied Multimodal Language Model" (IEEE ICRA 2023) 2. "RT-2: Vision-Language-Action Models for Direct Control" (arXiv 2023) 3. "OpenVLA: Open Foundation Models for Vision-Language-Action Control" (arXiv 2024) 4. "DualArm: A Framework for Learning Bimanual Manipulation from Human Demonstrations" (RSS 2022) 5. "Dense Object Nets for Pose Estimation and Imitation Learning in Multi-Object Scenes" (CoRL 2021)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问