DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM

2024年05月20日
  • 简介
    Visual Language Tracking(VLT)通过整合视频中的自然语言描述,增强了单个物体追踪(SOT),以精确追踪指定的物体。通过利用高级语义信息,VLT指导物体跟踪,减轻了依赖视觉模态的限制。然而,大多数VLT基准都是以单一粒度注释的,并且缺乏一致的语义框架来提供科学指导。此外,协调人类注释者进行高质量注释是费时费力的。为了解决这些挑战,我们引入了DTLLM-VLT,它可以自动生成广泛的、多粒度的文本,以增强环境多样性。 (1)DTLLM-VLT使用一个连贯的提示框架生成科学和多粒度的文本描述。它简洁而高度适应各种视觉跟踪基准的设计,使其无缝集成。 (2)我们选择了三个重要的基准来部署我们的方法:短期跟踪、长期跟踪和全局实例跟踪。我们为这些基准提供了四种粒度组合,考虑到语义信息的范围和密度,从而展示了DTLLM-VLT的实用性和多功能性。 (3)我们对具有不同文本粒度的VLT基准进行比较实验,评估和分析多样化文本对跟踪性能的影响。最后,这项工作利用LLM从高效和多样化的角度提供了多粒度的语义信息,以实现对多模式跟踪器的细粒度评估。在未来,我们相信这项工作可以扩展到更多数据集,以支持视觉数据集的理解。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决视频中物体跟踪的问题,提出了一种新的方法DTLLM-VLT,通过自动生成多粒度文本描述来增强单一物体跟踪的效果。
  • 关键思路
    DTLLM-VLT通过生成科学的、多粒度的文本描述来提高物体跟踪的性能,同时可以适应不同的跟踪基准。
  • 其它亮点
    论文使用DTLLM-VLT方法在三个不同的跟踪基准上进行了实验,并提供了四种不同的文本粒度组合。实验结果表明,DTLLM-VLT方法可以有效提高物体跟踪的性能。此外,该方法的设计简洁高效,可以无缝集成到各种视觉跟踪基准中。
  • 相关研究
    最近的相关研究包括:'Visual Object Tracking using Attention-Modulated Disintegration and Integration','Learning Dynamic Memory Networks for Object Tracking'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问