Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and Tracking

简介

我们提出了一个统一的物体感知时间学习框架，用于多视角3D检测和跟踪任务。我们观察到，最近的多视角感知方法中时间融合策略的有效性可能会受到历史帧中干扰因素和背景杂乱的影响，因此我们提出了一个循环学习机制来提高多视角表示学习的鲁棒性。其本质是构建一个向后的桥梁，从模型预测（例如对象位置和大小）到图像和BEV特征传播信息，形成一个具有正常推理的循环。在向后的精炼过程中，历史帧中与目标无关的区域的响应将被抑制，降低了污染未来帧的风险，并提高了时间融合的物体感知能力。我们进一步为基于循环学习模型的跟踪定制了一个物体感知的关联策略。循环学习模型不仅提供了精炼的特征，还为轨迹关联提供了更精细的线索（例如尺度级别）。所提出的循环学习方法和关联模块共同构成了一个新颖的统一多任务框架。在nuScenes上的实验证明，所提出的模型在检测和跟踪评估方面相对于不同设计的基线模型（即基于密集查询的BEVFormer、基于稀疏查询的SparseBEV和基于LSS的BEVDet4D）均取得了一致的性能提升。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在提出一种统一的物体感知时间学习框架，解决多视角3D检测和跟踪任务中历史帧中的干扰和背景杂乱的问题。
关键思路

提出循环学习机制，通过从模型预测到图像和BEV特征的反向传播来改善多视角表示学习的鲁棒性；并针对跟踪任务，设计了一个物体感知的关联策略。
其它亮点

论文实验在nuScenes数据集上进行，结果表明所提出的模型在检测和跟踪评估中相比不同设计的基线（包括BEVFormer、SparseBEV和BEVDet4D）均取得了一致的性能提升。
相关研究

最近在这个领域中，还有一些相关的研究，例如：《Multi-View 3D Object Detection Network for Autonomous Driving》、《Joint Detection and Multi-Object Tracking with Graph Neural Networks》等。

Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and Tracking

提问交流

提问交流