VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training

2024年03月12日
  • 简介
    人类在人群中高效地避免碰撞,是通过专注于与导航相关的特定视觉区域而实现的。然而,大多数机器人视觉导航方法依赖于在视觉任务上预训练的深度学习模型,这些模型优先考虑显著的对象——这些对象不一定与导航相关,可能会产生误导。另一种替代方法是从头开始训练专门的导航模型,这需要大量计算。另一方面,自监督学习已经在计算机视觉和自然语言处理方面产生了革命性的影响,但是由于定义有效的自监督信号的困难,其在机器人导航方面的应用仍未被充分探索。在这项工作中,我们提出了一种自监督视觉-动作模型,用于视觉导航预训练(VANP)。VANP不是检测对于分类或检测等任务有益的显著对象,而是学习仅关注与导航任务相关的特定视觉区域。为了实现这一点,VANP使用视觉观察历史记录、未来动作和目标图像进行自监督,并使用两个小Transformer编码器将它们嵌入。然后,VANP通过使用互信息最大化目标函数来最大化嵌入之间的信息。我们证明,大多数由VANP提取的特征与人类导航直觉相匹配。VANP实现了与端到端学习的模型相当的性能,但训练时间只有一半,并且只使用了ImageNet这样的大规模完全监督数据集的0.08%数据。
  • 图表
  • 解决问题
    论文旨在解决机器人视觉导航中深度学习模型对于导航任务不相关的显著物体的过度关注问题,提出了一种自监督学习的方法来训练视觉导航模型。
  • 关键思路
    论文提出了一种自监督学习的方法,称为VANP,通过学习历史视觉观察、未来动作和目标图像的嵌入来实现只关注与导航任务相关的特定视觉区域。VANP使用互信息最大化目标函数来最大化嵌入之间的信息。
  • 其它亮点
    论文发现,VANP提取的特征与人类导航直觉大部分相符。在相同训练时间下,VANP的性能与端到端学习的模型相当,并且使用的数据量仅为ImageNet数据集的0.08%。论文还开源了代码。
  • 相关研究
    与本文相关的研究包括使用自监督学习进行视觉导航的其他方法,以及使用Transformer的其他应用。例如,Self-Supervised Visual Planning and Exploration使用自监督学习进行视觉规划和探索,而Vision-Transformer使用Transformer来实现分类和检测任务。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论