- 简介本文介绍了一种名为VRSO的视觉中心静态物体注释方法,作为智能驾驶系统感知结果的一部分,3D空间中的静态物体检测(SOD)为驾驶环境理解提供了关键线索。随着深度神经网络在SOD任务中的快速部署,对高质量训练样本的需求激增。传统的、也是可靠的方法是对密集的LiDAR点云和参考图像进行手动标注。虽然大多数公共驾驶数据集采用这种策略提供SOD ground truth(GT),但在实践中仍然昂贵(需要LiDAR扫描仪)和低效(耗时且不可扩展)。VRSO是一种低成本、高效率、高质量的方法:(1)它仅通过摄像机图像作为输入就可以恢复3D空间中的静态物体;(2)由于SOD任务的GT是基于自动重建和注释管道生成的,因此手动标注几乎不涉及;(3)在Waymo Open数据集上的实验表明,VRSO注释的平均再投影误差仅为2.6像素,约为Waymo标注(10.6像素)的四分之一。源代码可在https://github.com/CaiYingFeng/VRSO上获得。
-
- 图表
- 解决问题本文旨在解决智能驾驶系统中静态物体检测(SOD)的高质量训练数据需求问题,提出一种基于视觉的静态物体注释方法。
- 关键思路VRSO使用仅有的摄像头图像作为输入,自动恢复3D空间中的静态物体,并生成SOD任务的GT,减少了手动标注的需求。
- 其它亮点VRSO方法具有低成本、高效率和高质量的特点,且平均重投影误差仅为2.6像素,相比于Waymo标注的10.6像素更低。实验使用Waymo开放数据集,并提供了开源代码。
- 近期的相关研究包括使用深度学习进行SOD任务的研究,以及手动标注LiDAR点云和参考图像的传统方法。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流