- 简介在多目标跟踪(MOT)中,基于检测的跟踪方法一直经受着考验,这种方法根据定义将过程分为两个部分:目标检测和关联。它们利用强大的单帧检测器,并将目标关联视为后处理步骤,通过手工制作的启发式算法和替代任务来完成。然而,启发式技术的本质阻碍了对训练数据的端到端开发,导致在面对复杂或新颖场景时需要越来越繁琐和具有挑战性的手动修改。在本文中,我们将这个目标关联任务视为一个上下文内端到端的ID预测问题,并提出了一个简化的基线方法,称为MOTIP。具体而言,我们将目标嵌入到历史轨迹信息中,同时考虑相应的ID作为上下文提示,然后直接预测当前帧中对象的ID标签。由于这种端到端的过程,MOTIP可以直接从训练数据中学习跟踪能力,从繁琐的手工制作算法中解放出来。在没有花哨的技巧的情况下,我们的方法在DanceTrack和SportsMOT等复杂场景中取得了令人印象深刻的最新成果,并在MOT17上与其他基于transformer的方法竞争。我们相信,MOTIP展示了显著的潜力,并可以作为未来研究的起点。代码可在https://github.com/MCG-NJU/MOTIP上获得。
- 图表
- 解决问题本文旨在解决多目标跟踪中的对象关联问题,提出了一种端到端的方法,名为MOTIP。
- 关键思路MOTIP将对象的历史轨迹信息转化为目标嵌入,并考虑相应的ID作为上下文提示,直接预测当前帧中对象的ID标签,从而解决对象关联问题。
- 其它亮点本文的方法在DanceTrack和SportsMOT等复杂场景下取得了卓越的表现,并在MOT17数据集上与其他基于transformer的方法竞争激烈。此外,本文提供了开源代码。
- 最近在这个领域中,还有一些相关研究,如FairMOT和TrackFormer。
沙发等你来抢
去评论
评论
沙发等你来抢