- 简介我们提出了一种名为ConVOI的新方法,使用视觉语言模型(VLMs)在真实的室内和室外环境中进行自主机器人导航。我们有两种使用VLMs的方式:首先,我们利用它们的零样本图像分类能力来识别机器人周围环境的上下文或场景(例如室内走廊,户外地形,人行横道等),并将基于上下文的导航行为制定为简单的文本提示(例如“留在人行道上”)。其次,我们利用它们先进的语义理解和逻辑推理能力,根据识别出的上下文计算适当的轨迹。为此,我们提出了一种新颖的多模式视觉标记方法,通过将RGB图像与环境的本地占用地图相对应,用数字标注无障碍区域。标记的数字将图像位置与现实世界地面位置联系起来,将VLM的注意力仅集中在可行驶位置上,并向VLM阐明它们与图像中所描绘的地形之间的空间关系。接下来,我们查询VLM以选择标记图像上符合基于上下文的行为文本提示的数字,并使用所选数字构建参考路径。最后,我们提出了一种方法,在机器人的环境上下文未改变时外推参考轨迹,以防止不必要的VLM查询。我们使用参考轨迹来指导运动规划器,并证明它在各种真实的室内和室外场景中导致类似于人类的行为(例如不穿过一群人,使用人行横道等)。
- 图表
- 解决问题ConVOI论文旨在解决自主机器人导航中的问题,特别是在室内和室外环境中。它试图利用视觉语言模型来实现机器人的自主导航。
- 关键思路论文的关键思路是利用视觉语言模型来帮助机器人识别环境并生成相应的导航行为。这个方法可以通过数字标记图像中的可行驶区域,然后利用VLM选择数字来计算路径。
- 其它亮点论文的亮点包括使用VLM来进行零样本图像分类、使用多模态视觉标记方法来标记图像中的可行驶区域、使用VLM进行语义理解和逻辑推理、以及提出一种路径外推方法来避免不必要的VLM查询。实验结果表明,这种方法可以在室内和室外环境中实现人类般的导航行为。
- 在这个领域中,最近的相关研究包括基于深度学习的自主导航方法、使用语义分割和目标检测来进行环境理解的方法、以及基于强化学习的导航方法等。其中一些相关论文包括《Deep Reinforcement Learning for Vision-Based Autonomous Navigation》、《Semantic Segmentation for Autonomous Navigation in Outdoor Environments》、《Object Detection for Autonomous Navigation in Unknown Environments》等。
沙发等你来抢
去评论
评论
沙发等你来抢