VRSO: Visual-Centric Reconstruction for Static Object Annotation

简介

本文介绍了一种名为VRSO的视觉中心静态物体注释方法，作为智能驾驶系统感知结果的一部分，3D空间中的静态物体检测(SOD)为驾驶环境理解提供了关键线索。随着深度神经网络在SOD任务中的快速部署，对高质量训练样本的需求激增。传统的、也是可靠的方法是对密集的LiDAR点云和参考图像进行手动标注。虽然大多数公共驾驶数据集采用这种策略提供SOD ground truth(GT)，但在实践中仍然昂贵(需要LiDAR扫描仪)和低效(耗时且不可扩展)。VRSO是一种低成本、高效率、高质量的方法：(1)它仅通过摄像机图像作为输入就可以恢复3D空间中的静态物体；(2)由于SOD任务的GT是基于自动重建和注释管道生成的，因此手动标注几乎不涉及；(3)在Waymo Open数据集上的实验表明，VRSO注释的平均再投影误差仅为2.6像素，约为Waymo标注(10.6像素)的四分之一。源代码可在https://github.com/CaiYingFeng/VRSO上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决智能驾驶系统中静态物体检测（SOD）的高质量训练数据需求问题，提出一种基于视觉的静态物体注释方法。
关键思路

VRSO使用仅有的摄像头图像作为输入，自动恢复3D空间中的静态物体，并生成SOD任务的GT，减少了手动标注的需求。
其它亮点

VRSO方法具有低成本、高效率和高质量的特点，且平均重投影误差仅为2.6像素，相比于Waymo标注的10.6像素更低。实验使用Waymo开放数据集，并提供了开源代码。
相关研究

近期的相关研究包括使用深度学习进行SOD任务的研究，以及手动标注LiDAR点云和参考图像的传统方法。

VRSO: Visual-Centric Reconstruction for Static Object Annotation

提问交流

提问交流