- 简介学习基于图像的机器人策略的主要挑战在于获取有利于低级控制的视觉表示。由于图像空间的高维度,学习一个好的视觉表示需要大量的视觉数据。然而,在现实世界中学习时,数据是昂贵的。Sim2Real是一种有前途的范例,可以通过使用模拟器收集与目标任务密切相关的大量廉价数据来克服现实世界中的数据稀缺性。然而,当领域在视觉上非常不同的时候,从模拟到真实的转移图像条件的策略是困难的。为了弥合Sim2Real视觉差距,我们提出使用图像的自然语言描述作为跨领域的统一信号,捕捉底层任务相关的语义。我们的关键洞察是,如果来自不同领域的两个图像观察被标记为类似的语言,那么策略应该预测两个图像的相似行动分布。我们证明,训练图像编码器来预测模拟或真实图像的语言描述或描述之间的距离,可以作为一种有用的、数据有效的预训练步骤,有助于学习一个领域不变的图像表示。然后,我们可以使用这个图像编码器作为一个IL策略的骨干,同时在大量模拟和少量真实演示中进行训练。我们的方法比广泛使用的先前的Sim2Real方法和强大的视觉语言预训练基线如CLIP和R3M提高了25%到40%。
- 图表
- 解决问题解决问题:论文旨在解决在学习基于图像的机器人策略时,获取适合低级控制的视觉表示的问题。
- 关键思路关键思路:使用自然语言描述图像作为跨域统一信号,学习域不变的图像表示,并将其用作同时在大量模拟和少量真实演示中训练的IL策略的骨干。
- 其它亮点亮点:论文提出了一种新颖的思路,即使用自然语言描述图像作为跨域统一信号,帮助学习域不变的图像表示,从而在模拟和真实环境中实现更好的泛化性能。实验结果表明,该方法比现有的Sim2Real方法和强大的视觉语言预训练基线(如CLIP和R3M)具有更好的性能。
- 相关研究:最近的相关研究包括Sim2Real方法和视觉语言预训练方法,如CLIP和R3M。
沙发等你来抢
去评论
评论
沙发等你来抢