Natural Language Can Help Bridge the Sim2Real Gap

2024年05月16日
  • 简介
    主要挑战在于学习基于图像的机器人策略时需要获取适合于低级控制的视觉表征。由于图像空间的高维性,学习一个良好的视觉表征需要大量的视觉数据。然而,在现实世界中学习时,数据是昂贵的。Sim2Real是一种有前途的范例,可以通过使用模拟器收集与目标任务密切相关的大量廉价数据来克服现实世界中的数据稀缺性。然而,当领域非常视觉上不同的时候,将基于图像的策略从Sim转移到Real是困难的。为了弥合Sim2Real的视觉差距,我们提出使用图像的自然语言描述作为跨领域的统一信号,捕捉潜在的与任务相关的语义。我们的关键洞察是,如果来自不同领域的两个图像观察结果被标记为类似的语言,则策略应该为这两个图像预测类似的动作分布。我们证明,将图像编码器训练为预测Sim或Real图像的语言描述或描述之间的距离作为有用的,数据有效的预训练步骤,有助于学习一个领域不变的图像表征。然后,我们可以将这个图像编码器作为IL策略的骨干,在大量模拟和少量真实演示同时进行训练。我们的方法比广泛使用的先前Sim2Real方法和强大的视觉-语言预训练基线(如CLIP和R3M)表现更好,提高了25%至40%。请访问https://robin-lab.cs.utexas.edu/lang4sim2real/获取更多视频和材料。
  • 解决问题
    如何解决在学习基于图像的机器人策略时,获取适合于低级控制的视觉表示的问题?如何通过使用自动模拟器来收集大量与目标任务密切相关的廉价数据来克服现实世界中数据匮乏的问题?如何在视觉上相似的情况下将策略从模拟器转移到真实世界?
  • 关键思路
    使用自然语言描述图像作为跨域的统一信号,以捕捉底层任务相关语义,从而缩小模拟到真实世界之间的视觉差距。通过将图像编码器训练为预测模拟或真实图像的语言描述或描述之间的距离,作为有用的数据有效预训练步骤,从而帮助学习域不变的图像表示。然后将此图像编码器用作同时在大量模拟和少量真实演示上训练的IL策略的骨干。该方法在性能上优于常用的先前的sim2real方法和强的视觉语言预训练基线,如CLIP和R3M,提高了25到40%。
  • 其它亮点
    论文提出了使用自然语言描述图像作为跨域的统一信号的方法来缩小模拟到真实世界之间的视觉差距。实验表明,使用图像编码器预测语言描述或描述之间的距离作为预训练步骤,可以帮助学习域不变的图像表示。该方法在性能上优于常用的先前的sim2real方法和强的视觉语言预训练基线,如CLIP和R3M,提高了25到40%。
  • 相关研究
    近期的相关研究包括使用GAN进行模拟到真实世界的转移、使用domain adaptation方法进行sim2real转移等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论