A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards

简介

在开放世界环境中为机器人操作指定任务具有挑战性，需要灵活且适应性强的目标，这些目标不仅要与人类意图一致，还能够通过迭代反馈不断进化。我们引入了迭代关键点奖励（Iterative Keypoint Reward, IKER），这是一种基于视觉的、以Python为基础的动态任务规范奖励函数。我们的框架利用视觉语言模型（VLMs）生成并优化这些奖励函数，用于多步骤操作任务。给定RGB-D观测数据和自由形式的语言指令，我们在场景中采样关键点，并根据这些关键点生成奖励函数。IKER基于关键点之间的空间关系进行操作，利用关于期望行为的常识先验知识，实现精确的SE(3)控制。我们在仿真中重建真实世界的场景，并使用生成的奖励来训练强化学习（RL）策略，然后将这些策略部署到现实世界中，形成从现实到仿真再到现实的循环。我们的方法在各种场景中展示了显著的能力，包括夹持和非夹持任务，展现了多步骤任务执行、自发错误恢复以及即时策略调整的能力。结果突显了IKER通过迭代奖励塑形使机器人在动态环境中执行多步骤任务的有效性。
图表
解决问题

该论文旨在解决机器人在开放世界环境中执行多步骤操控任务时面临的挑战，特别是如何制定能够灵活适应并与人类意图对齐的任务目标。这涉及到通过迭代反馈不断进化这些目标，以确保机器人能够在动态环境中有效地执行任务。这是一个相对较新的问题，特别是在结合视觉和语言指令来指导机器人行为方面。
关键思路

论文提出了一种名为Iterative Keypoint Reward (IKER)的动态任务规范方法。IKER利用视觉语言模型（VLMs）生成并优化基于关键点的奖励函数，这些奖励函数可以根据RGB-D观察和自由格式的语言指令进行调整。与现有研究相比，IKER的独特之处在于它不仅考虑了关键点之间的空间关系，还结合了常识性先验知识，从而实现精确的SE(3)控制，并且支持多步骤任务的执行。
其它亮点

论文展示了IKER在模拟和现实世界中的应用效果，包括但不限于：1) 成功处理多样化的场景，涵盖抓取和非抓取任务；2) 实现了多步骤任务的高效执行；3) 展示了自发错误恢复和即时策略调整的能力。实验设计上，作者重建了真实世界的场景并在模拟环境中训练强化学习（RL）策略，最终将这些策略部署到实际环境中。此外，论文提到所有代码已开源，鼓励进一步的研究和发展。
相关研究

近年来，关于机器人操作和强化学习的研究层出不穷。一些相关的研究包括：1) 使用深度学习进行机器人操作的端到端学习；2) 结合自然语言处理(NLP)和机器人技术的研究，如'Language-Conditioned Robot Learning for Vision-Based Manipulation'; 3) 探讨如何利用视觉信息改进机器人决策的研究，如'Seeing What You Mean: Joint Learning of Visual and Linguistic Semantics for Robotic Instruction Following'。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论