Context-Aware Integration of Language and Visual References for Natural Language Tracking

简介

这段摘要介绍了一种名为“自然语言描述跟踪”（TNL）的技术，旨在通过语言描述在视频序列中持续定位目标。现有方法将基于语言和基于模板的匹配分别用于目标推理，并合并两个来源的匹配结果。但当语言和视觉模板与动态目标状态不对齐或在后期合并阶段存在歧义时，会导致跟踪漂移。为了解决这些问题，作者提出了一种联合多模态跟踪框架，其中包括一个提示调制模块，以利用时间视觉模板和语言表达之间的互补性，实现精确和上下文感知的外观和语言线索；以及一个统一的目标解码模块，以整合多模态参考线索，并在搜索图像上执行集成查询，以直接以端到端的方式预测目标位置。这种设计通过利用历史视觉信息确保时空一致性，并引入了一个集成解决方案，可以在单个步骤中生成预测。在TNL2K、OTB-Lang、LaSOT和RefCOCOg上进行的大量实验验证了作者提出的方法的有效性。结果表明，在跟踪和定位方面，与最先进的方法相比，该方法具有竞争性的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决通过自然语言描述来跟踪视频序列中的目标时，语言和视觉模板不匹配所导致的跟踪漂移问题。
关键思路

本论文提出了一种联合多模态跟踪框架，利用提示调制模块和统一目标解码模块，实现了精确的外观和语言线索，并在单个步骤中生成预测，从而确保了时空一致性。
其它亮点

本论文的实验结果表明，该方法在TNL2K、OTB-Lang、LaSOT和RefCOCOg数据集上表现出了竞争性的性能，并且相对于当前领域的最新研究具有创新性。
相关研究

在相关研究方面，最近的一些论文包括《End-to-end Flow Correlation Tracking with Spatial-Temporal Attention》、《Learning to Track at 100 FPS with Deep Regression Networks》等。

Context-Aware Integration of Language and Visual References for Natural Language Tracking

提问交流

提问交流