ViNT: A Foundation Model for Visual Navigation

Dhruv Shah, Ajay Sridhar, Nitish Dashora, Kyle Stachowicz, Kevin Black, Noriaki Hirose, Sergey Levine
[UC Berkeley]

ViNT:视觉导航基础模型

  • 动机:为视觉导航建立一个基础模型。预训练的通用模型已经在许多机器学习问题上取得了成功,因此希望将这种成功带入视觉导航领域。为此,提出了视觉导航Transformer(ViNT),一个旨在将预训练模型的成功带入视觉导航的基础模型。
  • 方法:ViNT使用一个通用达成目标进行训练,这个目标可以用于任意导航数据集,并采用一种灵活的基于Transformer的架构来学习导航可供性,并使得能够有效地适应各种下游导航任务。ViNT在多个现有的导航数据集上进行了训练,包括数百小时的来自各种不同机器人平台的机器人导航,表现出了积极的迁移性,优于在更狭窄数据集上训练的专家模型。
  • 优势:提供了一种新的方法来评估视觉导航的能力,并与人类的表现进行比较。结果表明,ViNT能够在新环境中进行有效的导航,执行室内测绘,导航公里级的户外环境,而无需干预。展示了ViNT可以通过微调少量数据来适应新的任务规范,使ViNT能够作为移动机器人的有效基础模型。


提出了一种新的视觉导航基础模型ViNT,能在新环境中进行有效的导航,执行室内测绘,导航公里级的户外环境,而无需干预,可以通过微调少量数据来适应新的任务规范。

https://arxiv.org/abs/2306.14846 


图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除