Reconciling Reality through Simulation: A Real-to-Sim-to-Real Approach for Robust Manipulation

简介

模仿学习方法需要大量的人类监督才能学习到对物体姿态、物理干扰和视觉干扰变化具有鲁棒性的策略。相反，强化学习可以自主地探索环境以学习具有鲁棒性的行为，但可能需要大量不安全的真实世界数据收集，这是不切实际的。为了在不需要大量不安全的真实世界数据收集或广泛的人类监督的情况下学习性能良好、具有鲁棒性的策略，我们提出了RialTo。RialTo是一个系统，通过在“数字孪生”模拟环境中进行强化学习来增强现实世界中的模仿学习策略，该模拟环境是根据少量真实世界数据即时构建的。为了实现这种从真实世界到模拟世界再到真实世界的管道，RialTo提出了一个易于使用的界面，可以快速扫描和构建真实世界环境的数字孪生。我们还介绍了一种新颖的“反向蒸馏”程序，用于将真实世界演示带入模拟环境进行高效微调，最小化人类干预和工程所需。我们在真实世界中评估了RialTo在各种机器人操作问题上的表现，例如在架子上稳定地堆叠盘子，在书架上放置书籍和其他六个任务。RialTo提高了（超过67％）策略的鲁棒性，而无需进行广泛的人类数据收集。项目网站和视频请参见https://real-to-sim-to-real.github.io/RialTo/。
图表
解决问题

如何通过数字孪生环境实现强化学习与模仿学习的结合，提高机器人操作的鲁棒性？
关键思路

使用数字孪生环境进行真实世界的模拟，通过强化学习来优化模仿学习的策略，从而提高机器人操作的鲁棒性。
其它亮点

论文提出了RialTo系统，可以快速扫描和构建真实世界的数字孪生环境，并且使用“逆蒸馏”方法将真实世界的演示带入模拟环境进行快速调整，实现真实世界和模拟环境的互通。实验结果表明，RialTo系统可以提高机器人操作的鲁棒性，并且不需要进行大量的数据采集和人工监督。
相关研究

近年来，数字孪生环境在机器人操作领域得到了广泛应用，例如在物体抓取、机器人路径规划等方面。此外，深度强化学习和模仿学习的结合也是一个热门的研究方向，例如DeepMimic和DART等。

Reconciling Reality through Simulation: A Real-to-Sim-to-Real Approach for Robust Manipulation

评论