GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

2025年12月01日
  • 简介
    我们提出GR-RL,这是一种机器人学习框架,可将通用的视觉-语言-动作(VLA)策略转化为擅长长周期灵巧操作的高效专用策略。现有VLA策略通常以人类示范为最优前提,但我们认为,在高度灵巧且精密的操作任务中,人类示范往往存在噪声且并非最优。为此,GR-RL设计了一种多阶段训练流程,通过强化学习对示范数据进行过滤、增强和优化。首先,GR-RL学习一种基于视觉和语言条件的任务进展模型,用以筛选示范轨迹,仅保留对任务进展有积极贡献的状态转移。具体而言,我们证明:通过直接应用稀疏奖励的离线强化学习,所得到的$Q$值可被有效视为一种鲁棒的进展函数。接着,我们引入形态对称性增强方法,显著提升了GR-RL的泛化能力与性能表现。最后,为了使VLA策略在部署时的行为更契合高精度控制需求,我们通过学习一个潜在空间的噪声预测器来实施在线强化学习。借助这一完整流程,据我们所知,GR-RL成为首个能够自主完成系鞋带任务的学习型策略——它能将鞋带依次穿过多对鞋眼,成功率达83.3%,而该任务需要长周期推理、毫米级操控精度以及对柔性软体物体的顺应性交互。我们希望GR-RL能够推动通用机器人基础模型向可靠的现实世界专家角色演进。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决通用视觉-语言-动作(VLA)策略在复杂、高精度、长视野灵巧操作任务中表现不佳的问题。由于人类示范在这些任务中往往存在噪声且次优,直接依赖示范数据训练的策略难以实现可靠的精细控制。这虽然是VLA领域的一个延伸问题,但在面向真实世界高精度操作(如系鞋带)的应用上仍属较新的挑战。
  • 关键思路
    GR-RL提出一个多阶段训练框架:首先利用离线强化学习学习一个鲁棒的任务进展函数,并用Q值作为过滤标准筛选出对任务进展有正向贡献的示范片段;然后引入形态对称性增强来提升泛化能力;最后通过在线强化学习训练一个潜在空间噪声预测器,以对齐策略部署时的行为并提高控制精度。该方法不再假设人类示范是最优的,而是通过RL进行修正与强化,这是对传统VLA范式的显著改进。
  • 其它亮点
    GR-RL首次实现了学习策略自主完成穿鞋带任务(穿过多个孔眼),达到83.3%的成功率,展现出长视野推理、毫米级精度和软体交互能力。实验设计结合了离线与在线强化学习,使用了真实机器人收集的人类示范数据,并强调了数据质量的重要性。尽管未明确提及是否开源代码,但其方法论为后续研究提供了清晰的技术路径。值得深入的方向包括将该框架推广到更多高精度装配或医疗操作任务中。
  • 相关研究
    1. RT-2: Vision-Language-Action Models for Robotic Manipulation 2. PaLM-E: An Embodied Multimodal Language Model 3. BridgeData V2: Expanding Scalable Robot Learning Datasets 4. FLAT: Continuous Latent Actions for Task Sequencing 5. Octo: A Modular, General-Purpose Robotics Policy
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问