Local All-Pair Correspondence for Point Tracking

2024年07月22日
  • 简介
    我们介绍了LocoTrack,这是一个专门用于跟踪视频序列中任意点(TAP)的高精度高效模型。在此任务中,以往的方法通常依赖于局部二维相关性映射,以建立查询图像中的点与目标图像中的局部区域之间的对应关系,但往往会在均匀区域或重复特征上遇到困难,导致匹配的不确定性。LocoTrack通过一种新颖的方法克服了这一挑战,利用区域间的全对应关系(即局部4D相关性)建立精确的对应关系,双向对应和匹配平滑显著增强了对不确定性的鲁棒性。我们还加入了一个轻量级的相关性编码器来增强计算效率,以及一个紧凑的Transformer架构来整合长期时间信息。LocoTrack在所有TAP-Vid基准测试中均获得了无与伦比的精度,并且运行速度几乎比当前最先进的方法快6倍。
  • 图表
  • 解决问题
    本篇论文旨在解决视频序列中跟踪任意点(TAP)的问题。与之前的方法相比,该问题通常依赖于局部2D相关图来建立查询图像中的点与目标图像中的局部区域之间的对应关系,但这种方法往往难以处理均匀区域或重复特征,从而导致匹配的歧义。
  • 关键思路
    本文提出了一种新的方法,利用局部4D相关性建立所有对应区域之间的对应关系,即双向对应和匹配平滑,显著提高了对歧义的鲁棒性。此外,还结合了轻量级相关编码器和紧凑的Transformer架构来整合长期时间信息。
  • 其它亮点
    该方法在所有TAP-Vid基准测试中实现了无与伦比的准确性,并且运行速度几乎比当前最先进的方法快6倍。实验中使用的数据集和开源代码也值得关注。
  • 相关研究
    在最近的研究中,还有一些相关的工作,例如《DeepSORT: Improved Deep Learning-based Object Tracking》和《Learning to Track: Online Multi-Object Tracking by Decision Making》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论