RoScenes: A Large-scale Multi-view 3D Dataset for Roadside Perception

2024年05月16日
  • 简介
    我们介绍了RoScenes,这是最大的多视角路边感知数据集,旨在为更具挑战性的交通场景的基于视觉为中心的鸟瞰图(BEV)方法的发展提供帮助。RoScenes的亮点包括显著的大感知区域、完整的场景覆盖和拥挤的交通。具体而言,我们的数据集在64,000平方米内实现了惊人的21.13M 3D注释。为了减轻路边3D标注的昂贵成本,我们提出了一种新颖的BEV-to-3D联合注释流程,以高效地收集如此大量的数据。之后,我们在RoScenes上对当前的BEV方法进行了全面研究,从有效性和效率两个方面进行了评估。经过测试,这些方法受到广阔的感知区域和场景间传感器布局的变化的影响,导致性能水平低于预期。为此,我们提出了RoBEV,它结合了特征引导的位置嵌入,以实现有效的2D-3D特征分配。在其帮助下,我们的方法在验证集上无需额外的计算负担就能大幅超越最先进的方法。我们的数据集和开发工具包将在\url{https://github.com/xiaosu-zhu/RoScenes}上提供。
  • 作者讲解
  • 图表
  • 解决问题
    RoScenes论文旨在解决道路场景中的多视角感知问题,提供一个更具挑战性的视觉中心Bird's Eye View(BEV)方法开发的数据集。同时解决道路3D标注成本昂贵的问题。
  • 关键思路
    RoScenes数据集采用BEV-to-3D联合标注管道,有效地收集大量数据。RoBEV方法采用特征引导的位置嵌入,实现了有效的2D-3D特征分配,提高了性能。
  • 其它亮点
    RoScenes数据集包含了大量的3D标注,具有显著的感知区域,全景覆盖和拥挤的交通。RoBEV方法在测试中表现出色,超越了现有的方法。论文中提供了开源代码和数据集。
  • 相关研究
    最近的相关研究主要集中在道路场景的感知和3D标注方面,例如:《SqueezeSegV3: Spatially-Adaptive Convolution for Efficient Point-Cloud Segmentation》和《Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问