Diff-Tracker: Text-to-Image Diffusion Models are Unsupervised Trackers

简介

我们介绍了Diff-Tracker，这是一种新颖的方法，利用预训练的文本到图像扩散模型来解决具有挑战性的无监督视觉跟踪任务。我们的主要想法是利用预训练扩散模型中封装的丰富知识，例如对图像语义和结构信息的理解，来解决无监督视觉跟踪问题。为此，我们设计了一个初始提示学习器，使扩散模型能够通过学习代表目标的提示来识别跟踪目标。此外，为了促进提示动态适应目标的移动，我们提出了一个在线提示更新器。在五个基准数据集上进行的大量实验证明了我们提出的方法的有效性，该方法也实现了最先进的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

Diff-Tracker试图解决无监督视觉跟踪问题，利用预训练的文本到图像扩散模型来提高跟踪准确性。
关键思路

利用预训练的扩散模型的知识，设计一个初始提示学习器，使扩散模型能够通过学习表示目标的提示来识别跟踪目标。另外，为了实现提示的动态适应，提出了一个在线提示更新器。
其它亮点

论文在五个基准数据集上进行了广泛实验，证明了所提出方法的有效性和领先水平。同时，论文还提出了一个新的无监督跟踪评估指标，可以更准确地评估跟踪器的性能。
相关研究

最近的相关研究包括：1. Learning to Track: Online Multi-Object Tracking by Decision Making；2. MetaTracker: Few-Shot Online Adaptation for Visual Object Tracking；3. Towards Real-Time Multi-Object Tracking；4. Unsupervised Learning of Object Keypoints for Perception and Control。

Diff-Tracker: Text-to-Image Diffusion Models are Unsupervised Trackers

提问交流

提问交流