Diff-Tracker: Text-to-Image Diffusion Models are Unsupervised Trackers

2024年07月11日
  • 简介
    我们介绍了Diff-Tracker,这是一种新颖的方法,用于挑战性的无监督视觉跟踪任务,利用预训练的文本到图像扩散模型。我们的主要思想是利用预训练扩散模型中所封装的丰富知识,例如图像语义和结构信息的理解,来解决无监督的视觉跟踪问题。为此,我们设计了一个初始提示学习器,使扩散模型能够通过学习代表目标的提示来识别跟踪目标。此外,为了促进提示动态适应目标的运动,我们提出了一个在线提示更新器。在五个基准数据集上的广泛实验证明了我们所提出的方法的有效性,同时也实现了最先进的性能。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决无监督视觉跟踪任务的挑战性问题,通过利用预训练的文本到图像扩散模型的知识来实现。
  • 关键思路
    该论文的关键思路是利用预训练的扩散模型的知识,通过设计一个初始提示学习器来识别跟踪目标,并提出在线提示更新器以适应目标的运动,从而解决无监督视觉跟踪的问题。
  • 其它亮点
    该论文在五个基准数据集上进行了广泛的实验,证明了所提出方法的有效性,并取得了最先进的性能。此外,该论文的方法还具有动态适应性和可解释性。
  • 相关研究
    最近的相关研究包括基于深度学习的视觉跟踪方法,如ATOM、SiamRPN++等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问