通用目标跟踪(GOT)是跟踪目标对象的问题,由视频第一帧中的目标框指定。尽管这项任务在过去几十年中受到了广泛关注,但研究人员几乎只关注单目标跟踪。多目标GOT具有更广泛的适用性,因此在实际应用中更具吸引力。论文将这个问题归因于缺乏合适的基准。本文引入了一个新的大规模GOT基准,LaGOT,每个序列包含多个带标注的目标。该基准允许研究人员解决GOT中的关键剩余挑战,旨在通过同时联合跟踪多个目标来提高鲁棒性并减少计算量。此外论文提出了一种基于Transformer的GOT跟踪器TaMOs,能够通过共享计算联合处理多个目标。与独立跟踪每个目标相比,TaMOs在10个并发目标的情况下相比单目标跟踪快四倍并且性能更高。最后,TaMOs在单目标GOT数据集上取得了极具竞争力的结果,在TrackingNet上创下了新SOTA,AUC84.4%。

Beyond SOT: It’s Time to Track Multiple Generic Objects at Once

图片

本文的主要贡献如下:

  • 论文提出了一种新的多目标GOT评估基准LaGOT,由密集标注的多个通用目标轨迹组成,每个序列平均2.8个轨迹,在单目标模式下总评估长度为879分钟。论文在LaGOT基准上评估了8个现有的GOT跟踪器;
  • 论文提出TaMOs是一种GOT跟踪器,可以同时有效地跟踪多个通用目标。为了实现这一点,本文提出了一种新的多目标编码,引入了FPN,并在整个视频帧上全局应用跟踪器;
  • 论文通过评估其不同组件的影响来分析所提出的跟踪器,并评估其对所提出的多目标GOT基准以及流行的单目标GOT标准的影响。TaMOs的性能优于最近的跟踪器,如LaGOT上的MixFormer[7]和ToMP[62],同时在LaSOT[18]上取得了优异的结果,并在TrackingNet上创下了新SOTA[41]。最后,TaMOs在增加目标数量时显示出几乎恒定的运行时间,与跟踪10个目标时的基线相比,其运行时间快了4倍以上。

内容中包含的图片若涉及版权问题,请及时与我们联系删除