ChatTracker: Enhancing Visual Tracking Performance via Chatting with Multimodal Large Language Model

向作者提问

NEW

简介

视觉目标跟踪旨在根据初始边界框在视频序列中定位目标对象。最近，视觉-语言（VL）跟踪器提出利用额外的自然语言描述来增强在各种应用中的通用性。然而，与最先进的（SoTA）视觉跟踪器相比，VL跟踪器在跟踪性能上仍然逊色。我们发现，这种劣势主要源于其对人工文本注释的严重依赖，这些注释经常包含模糊的语言描述。在本文中，我们提出了ChatTracker，利用多模态大语言模型（MLLM）中的丰富世界知识生成高质量的语言描述，以提升跟踪性能。为此，我们提出了一种基于反思的提示优化模块，通过跟踪反馈迭代地改进目标的模糊和不准确描述。为了进一步利用MLLM产生的语义信息，我们提出了一种简单而有效的视觉-语言跟踪框架，可以轻松集成到现有系统中作为即插即用模块，以提升VL和视觉跟踪器的性能。实验结果表明，我们提出的ChatTracker实现了与现有方法相当的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决视觉语言(VL)追踪器在跟踪性能上不如纯视觉追踪器的问题，尤其是由于依赖模糊的手动文本注释导致的性能差距。
关键思路

论文提出了一种名为ChatTracker的新方法，利用多模态大语言模型(MLLM)生成高质量的语言描述，并通过反射式提示优化模块迭代地根据跟踪反馈改进目标描述的准确性和清晰度。此外，还提出了一个简单有效的VL跟踪框架，可以作为插件模块提升VL和视觉追踪器的性能。
其它亮点

1. 提出了反射式提示优化模块，能够迭代地改进语言描述的质量。 2. 设计了一个简单的VL跟踪框架，可以轻松集成到现有的追踪系统中。 3. 实验结果显示，ChatTracker的性能与现有方法相当，具有很大的应用潜力。 4. 论文使用了多个标准数据集进行评估，并提供了开源代码，便于复现和进一步研究。
相关研究

1. "ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision" 2. "CLIP: Connecting Text and Images" 3. "VATT: Vision-and-Language-and-Audio Triplet Pretraining for Multimodal Understanding" 4. "Tracking by Natural Language Instructions: A Dataset and Baseline Methods"

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问