Delving into Motion-Aware Matching for Monocular 3D Object Tracking

解决问题:本文旨在解决基于单目相机的3D多目标跟踪中,现有方法未充分探索的物体运动信息对跟踪的重要性问题。该问题属于当前领域的新问题。

关键思路:本文提出了一个基于运动感知的框架MoMA-M3T,包括三个关键组件:1)将物体在特征空间中与所有物体轨迹相关的可能运动表示为其运动特征;2)通过运动变换器在时空角度上对历史物体轨迹进行建模;3)提出了一个运动感知匹配模块,将历史物体轨迹与当前观测结果进行关联,得到最终的跟踪结果。相比于现有研究,本文的思路在于将物体的运动信息融入到跟踪中,提高了跟踪的准确性和鲁棒性。

其他亮点:本文在nuScenes和KITTI数据集上进行了广泛的实验,证明了MoMA-M3T在性能上具有与现有最先进方法相当的竞争力。此外,该跟踪器灵活易用,可以轻松地插入现有的基于图像的3D物体检测器中,无需重新训练。作者已经在github上公开了代码和模型。

相关研究:与本文相关的其他研究包括:1)"Mono3D++: Monocular 3D Vehicle Detection with Two-Scale 3D Hypotheses Fusion" by Xinyan Zhao等(来自香港科技大学);2)"Monocular 3D Object Detection with Feature Enhancement and Attention" by Zehao Huang等(来自华中科技大学);3)"Monocular 3D Object Detection and Tracking in the Wild" by Yihong Chen等(来自加州大学洛杉矶分校)。

论文摘要:本文探讨了单目3D目标检测的最新进展,这使得基于低成本相机传感器的3D多目标跟踪任务成为可能。我们发现,不同时间帧上物体的运动线索对于3D多目标跟踪至关重要,这在现有的单目方法中尚未得到充分探索。因此,本文提出了一种单目3D MOT的运动感知框架MoMA-M3T,该框架主要由三个运动感知组件组成。首先,我们将物体在特征空间中与所有物体轨迹相关的可能运动表示为其运动特征。然后,我们通过运动转换器在时空角度上进一步对历史物体轨迹进行建模。最后,我们提出了一个运动感知匹配模块,将历史物体轨迹和当前观测结果关联起来,作为最终跟踪结果。我们在nuScenes和KITTI数据集上进行了大量实验,证明了我们的MoMA-M3T与最先进的方法相比具有竞争力的性能。此外,该跟踪器灵活易用,可以轻松地插入现有的基于图像的3D目标检测器中,无需重新训练。代码和模型可在https://github.com/kuanchihhuang/MoMA-M3T上获取。