DualBEV: CNN is All You Need in View Transformation

简介

基于摄像头的鸟瞰感知技术往往在采用3D到2D或2D到3D视角转换时存在困难。3D到2D视角转换通常采用资源密集型的变换器来建立3D和2D特征之间的稳健对应关系，而2D到3D视角转换则利用Lift-Splat-Shoot（LSS）管道进行实时应用，可能会错过远距离信息。为了解决这些限制，我们提出了DualBEV，这是一个统一的框架，利用共享的基于CNN的特征转换，结合了两种策略的三种概率测量。通过在一个阶段考虑双重视角对应关系，DualBEV有效地弥合了这些策略之间的差距，利用它们各自的优势。我们的方法在不使用变换器的情况下实现了最先进的性能，在nuScenes测试集上实现了55.2％的mAP和63.4％的NDS，效率与LSS方法相当。代码将在https://github.com/PeidongLi/DualBEV上发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：本文旨在解决基于摄像头的鸟瞰图感知中，采用3D-to-2D或2D-to-3D视角变换时所遇到的问题，如Transformer算法资源密集，Lift-Splat-Shoot（LSS）流程无法获取远处信息等。
关键思路

关键思路：本文提出了DualBEV框架，利用基于CNN的共享特征变换，结合三种概率测量，一次性考虑双视角对应关系，有效地弥合了这些策略之间的差距，发挥了它们各自的优势。
其它亮点

其他亮点：本文在不使用Transformer的情况下取得了与LSS方法相当的效率，nuScenes测试集上的mAP和NDS分别为55.2％和63.4％，并将代码开源。本文的实验设计充分，使用了多个数据集，值得进一步研究。
相关研究

相关研究：最近的相关研究包括：'BirdNet: A 3D Object Detection Framework from LiDAR Information'，'PointPillars: Fast Encoders for Object Detection from Point Clouds'等。

DualBEV: CNN is All You Need in View Transformation

提问交流

提问交流