ECCV 2022｜追踪野外的每一件事

论文地址：https://arxiv.org/pdf/2207.12978.pdf

摘要

当前的多类别多对象跟踪(MOT)指标使用类标签对跟踪结果进行分组，以实现对每个类的评估。类似地，MOT方法通常只将对象与相同的类预测相关联。这两种在MOT中流行的策略隐含地假设了分类性能接近完美。然而，在最近的大规模MOT数据集中，情况远非如此，这些数据集包含大量具有许多稀有或语义相似类别的类。因此，由此产生的不准确分类导致次优跟踪和跟踪器基准不足。我们通过将分类与跟踪分离来解决这些问题。我们引入了一个新的度量指标--跟踪每件事的精确度(TETA)，将跟踪度量分解为三个子因素：定位、关联和分类，即使在分类不准确的情况下，也允许对跟踪性能进行全面的基准测试。TETA还解决了大规模跟踪数据集中具有挑战性的不完全标注问题。我们进一步引入了一个Track Every Things tracker(TETer)，该Track Every Things tracker使用类样本匹配(CEM)执行关联。我们的实验表明，TETA对跟踪器的评估更加全面，TETer在具有挑战性的大规模数据集BDD100K和STAO上取得了显著的改进。

主要贡献

我们的TETer遵循每件事都有关联(AET)的策略。我们不是将同一类中的对象关联起来，而是将相邻帧中的每个对象关联起来。AET策略将关联从大规模长尾环境下具有挑战性的分类/检测问题中解放出来。然而，尽管在关联过程中完全不考虑类信息，我们提出了一种新的利用类信息的方法，该方法对分类错误具有鲁棒性。我们引入了类样本匹配(CEM)，其中学习到的类样本以一种软的方式结合了有价值的类信息。这样，我们在不依赖于通常不正确的分类输出的同时，有效地利用了对大规模检测数据集的语义监督。CEM可以无缝地集成到现有的MOT方法中，并持续地提高性能。此外，我们的跟踪策略使我们能够利用丰富的时间信息修正每帧类预测。

我们在新引入的大规模多类别跟踪数据集TAO[8]和BDD100K[50]上分析了我们的方法。我们的综合分析表明，我们的度量更全面地评价跟踪器，并实现了更好的交叉数据集一致性，尽管注释不完全。此外，我们的跟踪器在TAO和BDD100K上实现了最先进的性能，无论是使用以前建立的度量还是建议的TETA。

实验

我们对不同的评价指标进行了分析，并在TAO[8]和BDD100K[50]上研究了我们新的跟踪方法的有效性。TAO为常见和稀有对象提供视频和跟踪标签，有超过800个对象类别。尽管BDD100K用于驾驶场景的标记类别较少，但一些类别，如火车，比汽车等常见对象要少得多。在本节中，我们首先将不同的度量与TETA进行比较。然后，我们在不同的数据集上对所提出的TETer进行评估，并将CEM插入到现有的跟踪方法中，以证明其可推广性。

对于目标检测器，我们使用速度更快的R-CNN[41]和特征金字塔网络(FPN)[24]。我们在TAO上使用ResNet-101作为主干，与TAO基线相同[8]，在BDD100K上使用ResNet-50作为backone，与QDTrack相同[39]。在TAO上，我们使用重复因子抽样，在LVISV0.5[17]和COCO数据集的组合上训练我们的模型。重复系数设置为0.001。我们使用学习速率为0.02的SGD优化器，并采用学习速率衰减的步长策略，动量衰减为0.9，权值衰减为0.0001。我们对我们的模型进行了总共24个历元的训练，在16和22个历元时，学习速率下降。对于具有SwinT骨干[28]的TETer，我们使用mmdetection使用的3x调度[6]。对于TETer-HTC，我们使用[23]中的HTCX101-MS-DCN检测器。在BDD100K上，我们从QDTrack[39]加载相同的对象检测器权重，并在冻结其他权重的情况下，用BDD100K检测数据集微调样本编码器。对于每个图像，我们最多采样256个对象建议。有关更多详情，请参阅附录第8.6节。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ECCV 2022｜追踪野外的每一件事

摘要

主要贡献

实验

评论列表

评论