- 简介Visual Language Tracking(VLT)通过整合视频中的自然语言描述,增强了单个物体追踪(SOT),以精确追踪指定的物体。通过利用高级语义信息,VLT指导物体跟踪,减轻了依赖视觉模态的限制。然而,大多数VLT基准都是以单一粒度注释的,并且缺乏一致的语义框架来提供科学指导。此外,协调人类注释者进行高质量注释是费时费力的。为了解决这些挑战,我们引入了DTLLM-VLT,它可以自动生成广泛的、多粒度的文本,以增强环境多样性。 (1)DTLLM-VLT使用一个连贯的提示框架生成科学和多粒度的文本描述。它简洁而高度适应各种视觉跟踪基准的设计,使其无缝集成。 (2)我们选择了三个重要的基准来部署我们的方法:短期跟踪、长期跟踪和全局实例跟踪。我们为这些基准提供了四种粒度组合,考虑到语义信息的范围和密度,从而展示了DTLLM-VLT的实用性和多功能性。 (3)我们对具有不同文本粒度的VLT基准进行比较实验,评估和分析多样化文本对跟踪性能的影响。最后,这项工作利用LLM从高效和多样化的角度提供了多粒度的语义信息,以实现对多模式跟踪器的细粒度评估。在未来,我们相信这项工作可以扩展到更多数据集,以支持视觉数据集的理解。
-
- 图表
- 解决问题本论文旨在解决视频中物体跟踪的问题,提出了一种新的方法DTLLM-VLT,通过自动生成多粒度文本描述来增强单一物体跟踪的效果。
- 关键思路DTLLM-VLT通过生成科学的、多粒度的文本描述来提高物体跟踪的性能,同时可以适应不同的跟踪基准。
- 其它亮点论文使用DTLLM-VLT方法在三个不同的跟踪基准上进行了实验,并提供了四种不同的文本粒度组合。实验结果表明,DTLLM-VLT方法可以有效提高物体跟踪的性能。此外,该方法的设计简洁高效,可以无缝集成到各种视觉跟踪基准中。
- 最近的相关研究包括:'Visual Object Tracking using Attention-Modulated Disintegration and Integration','Learning Dynamic Memory Networks for Object Tracking'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流