- 简介视觉目标跟踪旨在基于第一帧中目标的初始外观,在每一帧中定位目标对象。根据输入模式,跟踪任务可以分为RGB跟踪和RGB+X(例如RGB+N和RGB+D)跟踪。尽管输入模式不同,但跟踪的核心是时间匹配。基于这个共同点,我们提出了一个通用框架来统一各种跟踪任务,称为OneTracker。OneTracker首先对称为Foundation Tracker的RGB跟踪器进行大规模预训练。这个预训练阶段使Foundation Tracker具备了稳定的目标对象定位能力。然后,我们将其他模态信息视为提示,并在Foundation Tracker的基础上构建Prompt Tracker。通过冻结Foundation Tracker并仅调整一些额外可训练参数,Prompt Tracker抑制了Foundation Tracker的强定位能力,并在下游RGB+X跟踪任务上实现了参数高效的微调。为了评估我们的通用框架OneTracker(由Foundation Tracker和Prompt Tracker组成)的有效性,我们在11个基准测试中对6个流行的跟踪任务进行了广泛的实验,结果表明OneTracker优于其他模型,达到了最先进的性能水平。
- 图表
- 解决问题论文旨在解决视觉目标跟踪中不同输入模态(RGB和RGB+X)的问题,提出了一种通用的框架OneTracker,旨在统一各种跟踪任务,提高跟踪性能。
- 关键思路OneTracker框架分为两个部分:Foundation Tracker和Prompt Tracker。首先对Foundation Tracker进行大规模预训练,然后在此基础上构建Prompt Tracker,通过冻结Foundation Tracker并仅调整一些可训练参数,实现对下游RGB+X跟踪任务的参数高效微调。
- 其它亮点论文在11个基准测试中对6种流行的跟踪任务进行了广泛的实验,展示了OneTracker的卓越性能,超越了其他模型并实现了最先进的性能。此外,论文还开源了代码,方便其他研究人员进行进一步研究。
- 近期的相关研究包括:《Learning Dynamic Memory Networks for Object Tracking》、《SiamFC++: Towards Robust and Accurate Visual Tracking with Target Estimation Guidelines》等。
沙发等你来抢
去评论
评论
沙发等你来抢