VastTrack: Vast Category Visual Object Tracking

2024年03月06日
  • 简介
    本文介绍了一个新的基准测试数据集,名为VastTrack,旨在通过包含丰富的类别和视频,促进更通用的视觉跟踪的发展。VastTrack具有以下几个优点:(1)广泛的目标类别。特别是,它覆盖了来自2,115个类别的目标对象,大大超过了现有流行基准数据集(例如,具有563个类别的GOT-10k和70个类别的LaSOT)。有了如此广泛的目标类别,我们期望学习到更通用的目标跟踪。 (2)更大的规模。与当前的基准数据集相比,VastTrack提供了50,610个序列和4.2百万帧,这使它成为迄今为止视频数量最多的基准数据集,因此可以在深度学习时代受益于训练更强大的视觉跟踪器。 (3)丰富的注释。除了传统的边界框注释外,VastTrack还为视频提供了语言描述。 VastTrack的丰富注释使得可以开发基于视觉和基于视觉语言的跟踪。为了确保精确的注释,所有视频都经过多轮仔细检查和完善的手动标注。为了了解现有跟踪器的性能并为未来的比较提供基准,我们广泛评估了25个代表性的跟踪器。结果并不令人意外,由于缺乏丰富的类别和来自不同场景的视频进行训练,与当前数据集相比,性能显着下降,因此需要更多的努力来改进通用跟踪。我们的VastTrack和所有评估结果将公开发布在 https://github.com/HengLan/VastTrack。
  • 图表
  • 解决问题
    本论文旨在通过提供大量类别和视频来推动更普适的视觉跟踪的发展。它试图解决的问题是缺乏丰富的类别和场景数据集对于训练更普遍的视觉跟踪器的挑战。
  • 关键思路
    该论文的关键思路是提供一个新的基准数据集VastTrack,该数据集涵盖了2,115个类别和50,610个序列,是目前最大的数据集之一,为开发更强大的视觉跟踪器提供了更多的训练数据。
  • 其它亮点
    VastTrack数据集的亮点包括:1.覆盖了2,115个类别,比现有的流行基准数据集(如GOT-10k和LaSOT)覆盖的类别更多;2.提供了50,610个序列和4.2百万帧的数据,是目前最大的数据集之一;3.提供了丰富的注释,包括边界框注释和语言描述,可以用于开发视觉-语言跟踪器;4.通过对25个代表性跟踪器的评估,表明现有跟踪器在VastTrack数据集上的表现有所下降,需要更多的努力来提高普适跟踪的性能。
  • 相关研究
    在这个领域中,最近的相关研究包括GOT-10k和LaSOT等基准数据集,以及许多基于深度学习的视觉跟踪器,如SiamRPN、ATOM和DiMP等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论