SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory

2024年11月18日
  • 简介
    段落任何模型2(SAM 2)在对象分割任务中展示了强大的性能,但在视觉对象跟踪方面面临挑战,尤其是在处理快速移动或自遮挡对象的拥挤场景时。此外,原模型中的固定窗口记忆方法没有考虑选择的记忆质量,以调节下一帧图像特征,导致视频中的错误传播。本文介绍了SAMURAI,这是SAM 2的一个增强版本,专门设计用于视觉对象跟踪。通过结合时间运动线索和提出的运动感知记忆选择机制,SAMURAI有效地预测了对象运动并优化了掩码选择,在无需重新训练或微调的情况下实现了稳健且准确的跟踪。SAMURAI实时运行,并在多个基准数据集上展示了强大的零样本性能,证明了其在不进行微调的情况下具有广泛的泛化能力。在评估中,SAMURAI在成功率和精度方面显著超过了现有的跟踪器,在LaSOT_ext上的AUC提高了7.1%,在GOT-10k上的AO提高了3.5%。此外,它在LaSOT上与完全监督方法相比也取得了有竞争力的结果,突显了其在复杂跟踪场景中的鲁棒性及其在动态环境中实际应用的潜力。代码和结果可在https://github.com/yangchris11/samurai获取。
  • 图表
  • 解决问题
    论文试图解决现有对象分割模型在视觉对象跟踪任务中的局限性,特别是在处理拥挤场景、快速移动或自遮挡对象时的表现不佳问题。此外,原始模型的固定窗口记忆方法不考虑所选记忆的质量,导致视频中的错误传播。
  • 关键思路
    论文提出了一种增强版的Segment Anything Model 2(SAM 2),称为SAMURAI。通过引入时间运动线索和运动感知记忆选择机制,SAMURAI能够更准确地预测对象运动并优化掩码选择,从而实现鲁棒且精确的跟踪。该方法无需重新训练或微调即可实现实时操作,并展示出强大的零样本性能。
  • 其它亮点
    SAMURAI在多个基准数据集上展示了显著的性能提升,例如在LaSOT_ext上的AUC提高了7.1%,在GOT-10k上的AO提高了3.5%。此外,它在LaSOT数据集上与完全监督方法的竞争结果表明其在复杂跟踪场景中的鲁棒性。论文还提供了开源代码和结果,便于复现和进一步研究。未来的研究可以探索更多动态环境下的应用和改进。
  • 相关研究
    近年来,关于视觉对象跟踪的研究不断涌现,例如: 1. "High-Fidelity Video Object Segmentation via Dual-Branch Network" (CVPR 2020) 2. "Learning to Track Dynamic Objects with Transformers" (ECCV 2020) 3. "SiamRPN++: Evolution of Siamese Visual Tracking with Deep Regression Network" (TPAMI 2021) 4. "ATOM: Accurate Tracking by Overlap Maximization" (CVPR 2019) 这些研究都试图通过不同的方法提高跟踪的准确性和鲁棒性。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论