Diff-Tracker: Text-to-Image Diffusion Models are Unsupervised Trackers

简介

我们介绍了Diff-Tracker，这是一种新颖的方法，用于挑战性的无监督视觉跟踪任务，利用预训练的文本到图像扩散模型。我们的主要思想是利用预训练扩散模型中所封装的丰富知识，例如图像语义和结构信息的理解，来解决无监督的视觉跟踪问题。为此，我们设计了一个初始提示学习器，使扩散模型能够通过学习代表目标的提示来识别跟踪目标。此外，为了促进提示动态适应目标的运动，我们提出了一个在线提示更新器。在五个基准数据集上的广泛实验证明了我们所提出的方法的有效性，同时也实现了最先进的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决无监督视觉跟踪任务的挑战性问题，通过利用预训练的文本到图像扩散模型的知识来实现。
关键思路

该论文的关键思路是利用预训练的扩散模型的知识，通过设计一个初始提示学习器来识别跟踪目标，并提出在线提示更新器以适应目标的运动，从而解决无监督视觉跟踪的问题。
其它亮点

该论文在五个基准数据集上进行了广泛的实验，证明了所提出方法的有效性，并取得了最先进的性能。此外，该论文的方法还具有动态适应性和可解释性。
相关研究

最近的相关研究包括基于深度学习的视觉跟踪方法，如ATOM、SiamRPN++等。

Diff-Tracker: Text-to-Image Diffusion Models are Unsupervised Trackers

提问交流

提问交流