- 简介计算机视觉中的多目标跟踪(MOT)仍然是一个重要的挑战,需要精确定位和持续跟踪视频序列中的多个目标。这项任务对于各种应用非常关键,包括动作识别和行为分析。主要挑战包括遮挡、重新识别、跟踪快速移动的物体以及处理相机运动伪影。过去的研究探索了基于检测的跟踪方法和端到端模型,近期关注点在于利用Transformer架构的基于注意力的跟踪方法。强调强大的重新识别能力的数据集的出现,例如DanceTrack,突显了需要有效的解决方案。虽然基于记忆的方法已经显示出希望,但它们经常遭受高计算复杂性和内存使用率的问题。我们提出了一种新颖的稀疏记忆方法,根据对象运动和重叠感知选择性地存储关键特征,旨在提高效率同时最小化冗余。在MOTRv2模型的基础上,这是一种基于注意力和基于检测的混合模型,我们引入了一种无需训练的记忆,旨在增强重新识别能力并保持模型的灵活性。我们的记忆方法在DanceTrack测试集上取得了显著的改进,表现为HOTA指标增加了1.1\%,IDF1分数增加了2.1\%。
- 图表
- 解决问题多目标跟踪(MOT)在计算机视觉中仍然是一个重要的挑战,需要精确的定位和连续跟踪视频序列中的多个对象。本文旨在提出一种新的稀疏内存方法,通过基于对象运动和重叠意识选择性地存储关键特征,旨在提高效率,同时最小化冗余。
- 关键思路本文提出了一种新的稀疏内存方法,结合跟踪-注意和跟踪-检测的混合模型,旨在增强重新识别能力并保持模型的灵活性。
- 其它亮点本文的亮点包括提出了一种新的稀疏内存方法,该方法通过选择性存储关键特征来提高效率和减少冗余;在DanceTrack测试集中,与MOTRv2相比,本方法取得了显著的改进;
- 最近在这个领域中,一些相关研究包括:Tracking by Detection Methods,End-to-End Models,Tracking-by-Attention Approaches,以及针对强健性重新识别的数据集,如DanceTrack。
沙发等你来抢
去评论
评论
沙发等你来抢