Learning Semantic Traversability with Egocentric Video and Automated Annotation Strategy

简介

为了在城市环境中可靠地实现自主机器人导航，机器人必须能够基于场景的语义理解，在图像中识别可遍历的地形。这种推理能力基于语义遍历性，通常使用在测试领域上微调的语义分割模型来实现。这个微调过程通常需要使用目标机器人进行手动数据收集，并由人工标注者进行注释，这是代价高昂且不可扩展的。在这项工作中，我们提出了一种使用自我中心视频和自动注释过程来训练语义遍历性估计器的有效方法。自我中心视频是从安装在行人胸部的摄像头中收集的。然后，使用图像分割中的最新基础模型及其提示技术，在每个视频帧中提取可遍历的语义区域，自动生成用于训练语义遍历性估计器的数据集。在覆盖多个国家和城市的视频上进行的大量实验，涵盖了各种城市情景，证明了所提出的注释方法的高可扩展性和通用性。此外，对自主机器人导航的性能分析和实际部署展示，经过训练的语义遍历性估计器具有高精度、能够处理多样化的相机视角、计算负荷轻和适用于实际情况。摘要视频可在https://youtu.be/EUVoH-wA-lA中获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在通过自动注释过程，使用自拍视频训练语义穿越估计器，以解决在城市环境中可靠的自主机器人导航的问题。
关键思路

使用自拍视频和自动注释过程训练语义穿越估计器，从而实现对城市环境中可穿越地形的语义理解，避免了人工标注的高成本和不可扩展性问题。
其它亮点

论文使用自拍视频和自动注释过程训练语义穿越估计器，实现了对城市环境中可穿越地形的语义理解。实验结果表明，该方法具有高可扩展性和通用性，能够处理不同的相机视角，具有较高的准确性和实际应用价值。
相关研究

在这个领域中的相关研究包括：1.使用深度学习模型进行语义分割；2.使用激光雷达进行环境感知；3.使用视觉里程计进行位置估计。

Learning Semantic Traversability with Egocentric Video and Automated Annotation Strategy

提问交流

提问交流