Reflex-Based Open-Vocabulary Navigation without Prior Knowledge Using Omnidirectional Camera and Multiple Vision-Language Models

简介

本文介绍了各种机器人导航方法，但它们主要基于同时定位和地图构建（SLAM）、强化学习等，需要先前进行地图构建或学习。本研究考虑了最简单的方法，它不需要任何地图构建或学习，即可执行机器人的开放词汇导航，而不需要任何先前的知识。我们为机器人应用了全向摄像头和预训练的视觉语言模型。全向摄像头提供了周围环境的统一视图，因此消除了需要进行复杂的探索行为，包括轨迹生成。通过将多个预训练的视觉语言模型应用于这个全向图像，并结合反射行为，我们展示了导航变得简单，并且不需要任何先前的设置。基于对移动机器人Fetch的实验，我们讨论了我们方法的有趣属性和限制。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决机器人导航中需要先构建地图或学习的问题，提出了一种不需要先前知识的开放词汇导航方法。
关键思路

使用全向相机和预训练的视觉-语言模型，利用反射行为，实现简单的导航。
其它亮点

论文使用全向相机提供环境的全景视图，避免了复杂的轨迹生成；实验表明该方法不需要任何先前设置就可以实现导航；值得进一步深入研究。
相关研究

近期相关研究包括基于SLAM和强化学习的机器人导航方法。