- 简介本文作者指出,当前大多数多目标跟踪方法通常通过最大化不同实例之间的不相似性和最小化相同实例之间的相似性来学习视觉跟踪特征。虽然这种特征学习方案取得了良好的性能,但仅基于视觉信息学习判别特征在存在干扰因素(如遮挡、模糊和领域差异)时具有挑战性。因此,作者认为多模态语言驱动特征可以提供补充信息,从而有助于提高对这些干扰因素的鲁棒性。为此,作者提出了一种新的多目标跟踪框架,名为LG-MOT,明确地利用不同粒度(场景和实例级别)的语言信息,并将其与标准视觉特征相结合,以获得判别表示。为了开发LG-MOT,作者使用场景和实例级别的语言描述对现有的MOT数据集进行注释。然后,将实例和场景级别的语言信息编码为高维嵌入,这些嵌入在训练期间用于指导视觉特征。在推理过程中,LG-MOT使用标准视觉特征,而不依赖于注释的语言描述。在MOT17、DanceTrack和SportsMOT三个基准测试上的大量实验表明,所提出的贡献具有显著的优点,导致了最先进的性能。在DanceTrack测试集上,相比仅使用视觉特征的基线,LG-MOT在目标对象关联(IDF1得分)方面实现了2.2%的绝对增益。此外,LG-MOT表现出强的跨领域泛化能力。数据集和代码将在~\url{https://github.com/WesLee88524/LG-MOT}上提供。
-
- 图表
- 解决问题论文旨在解决多目标跟踪中视觉信息不足、易受环境干扰(如遮挡、模糊和领域变化)的问题,提出一种结合语言信息的多模态跟踪框架。
- 关键思路论文提出的框架名为LG-MOT,利用已有的MOT数据集进行语言描述的标注,将场景和实例级别的语言信息编码成高维嵌入,与标准视觉特征一起训练,提高特征的区分度和鲁棒性。
- 其它亮点论文在三个基准数据集上进行了实验,证明了所提出的框架的有效性和鲁棒性,特别是在DanceTrack测试集上,相对于只使用视觉特征的基线,IDF1分数获得了2.2%的绝对增益。此外,该框架表现出良好的跨领域泛化能力。论文提供了数据集和代码。
- 最近的相关研究包括:Multi-Modal Multi-Object Tracking Using Reasoning and Interaction、Joint Detection and Embedding for Multi-Object Tracking、Learning to Track: Online Multi-Object Tracking by Decision Making等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流