Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning

简介

我们能否使视觉动作机器人具备在各种开放世界场景下的泛化能力？在本文中，我们提出了“Maniwhere”——一个专为视觉强化学习量身定制的泛化框架，使训练过的机器人策略能够在多种视觉干扰类型的组合中进行泛化。具体而言，我们引入了一种多视角表示学习方法，融合了空间变换网络（STN）模块，以捕捉不同视角之间的共享语义信息和对应关系。此外，我们采用一种基于课程的随机化和增强方法来稳定强化学习训练过程，并增强视觉泛化能力。为了展示Maniwhere的有效性，我们精心设计了8个任务，涵盖了关节对象、双手和灵巧手操作任务，展示了Maniwhere在3个硬件平台上的强大视觉泛化和从仿真到实际场景的转移能力。我们的实验表明，Maniwhere明显优于现有的最先进方法。视频可在https://gemcollector.github.io/maniwhere/上查看。
图表
解决问题

如何赋予视觉-运动机器人在多种开放环境下的泛化能力？
关键思路

提出一种基于多视角表示学习和空间变换网络的泛化框架Maniwhere，同时采用课程式随机化和数据增强的方法来加强视觉泛化能力和稳定强化学习训练过程。
其它亮点

论文设计了8个任务来展示Maniwhere的泛化和模拟到实际的迁移能力，并在3个硬件平台上进行了实验，结果表明Maniwhere明显优于现有的最先进方法。论文提供了视频和开源代码。
相关研究

近期相关研究包括：Improving Sample Efficiency for Neural-SLAM via Active Learning, Sim2Real View Invariant Visual Servoing by Recurrent Control, Learning Dexterity: Training Agile and Dexterous Manipulation using a Tactile-based Soft Robot

Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning

评论