DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM

简介

Visual Language Tracking（VLT）通过整合视频中的自然语言描述，增强了单个物体追踪（SOT），以精确追踪指定的物体。通过利用高级语义信息，VLT指导物体跟踪，减轻了依赖视觉模态的限制。然而，大多数VLT基准都是以单一粒度注释的，并且缺乏一致的语义框架来提供科学指导。此外，协调人类注释者进行高质量注释是费时费力的。为了解决这些挑战，我们引入了DTLLM-VLT，它可以自动生成广泛的、多粒度的文本，以增强环境多样性。（1）DTLLM-VLT使用一个连贯的提示框架生成科学和多粒度的文本描述。它简洁而高度适应各种视觉跟踪基准的设计，使其无缝集成。（2）我们选择了三个重要的基准来部署我们的方法：短期跟踪、长期跟踪和全局实例跟踪。我们为这些基准提供了四种粒度组合，考虑到语义信息的范围和密度，从而展示了DTLLM-VLT的实用性和多功能性。（3）我们对具有不同文本粒度的VLT基准进行比较实验，评估和分析多样化文本对跟踪性能的影响。最后，这项工作利用LLM从高效和多样化的角度提供了多粒度的语义信息，以实现对多模式跟踪器的细粒度评估。在未来，我们相信这项工作可以扩展到更多数据集，以支持视觉数据集的理解。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决视频中物体跟踪的问题，提出了一种新的方法DTLLM-VLT，通过自动生成多粒度文本描述来增强单一物体跟踪的效果。
关键思路

DTLLM-VLT通过生成科学的、多粒度的文本描述来提高物体跟踪的性能，同时可以适应不同的跟踪基准。
其它亮点

论文使用DTLLM-VLT方法在三个不同的跟踪基准上进行了实验，并提供了四种不同的文本粒度组合。实验结果表明，DTLLM-VLT方法可以有效提高物体跟踪的性能。此外，该方法的设计简洁高效，可以无缝集成到各种视觉跟踪基准中。
相关研究

最近的相关研究包括：'Visual Object Tracking using Attention-Modulated Disintegration and Integration'，'Learning Dynamic Memory Networks for Object Tracking'等。

DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM

提问交流

提问交流