- 简介多模态视觉目标跟踪(VOT)因其鲁棒性而受到越来越多的关注。早期的研究集中在完全微调基于RGB的跟踪器上,这种方法效率低下且缺乏广义表示,因为多模态数据很少。因此,最近的研究利用快速微调将预训练的基于RGB的跟踪器转移到多模态数据上。然而,模态差距限制了预训练知识的召回,并且RGB模态的优势仍然存在,阻碍了从其他模态中充分利用信息。为了解决这些问题,我们提出了一种新颖的对称多模态跟踪框架SDSTrack。我们引入了轻量级适应方法,以实现有效的微调,直接将特征提取能力从RGB转移到其他领域,只需少量可训练参数,并以平衡、对称的方式集成多模态特征。此外,我们设计了一种互补的掩膜补丁蒸馏策略,以增强跟踪器在复杂环境中的鲁棒性,例如极端天气、图像质量差和传感器故障。广泛的实验表明,SDSTrack在各种多模态跟踪场景中优于现有方法,包括RGB+深度、RGB+热成像和RGB+事件跟踪,并在极端条件下展现出令人印象深刻的结果。我们的源代码可在https://github.com/hoqolo/SDSTrack上获得。
-
- 图表
- 解决问题本论文旨在解决多模态目标跟踪中存在的问题,如预训练RGB跟踪器的泛化性差,模态差距限制了预训练知识的召回等。
- 关键思路论文提出了一种新的对称多模态跟踪框架SDSTrack,采用轻量级适应方法直接将RGB的特征提取能力转移到其他领域,并以平衡对称的方式集成多模态特征。此外,论文还设计了一种补充的遮蔽补丁蒸馏策略,增强跟踪器在复杂环境中的鲁棒性。
- 其它亮点论文在多个多模态跟踪场景中进行了广泛实验,包括RGB +深度,RGB +热成像和RGB +事件跟踪,并在极端条件下展现出了令人印象深刻的结果。作者提供了开源代码,可在GitHub上获取。值得进一步研究的工作包括如何将SDSTrack应用于其他领域,以及如何进一步提高跟踪器的鲁棒性。
- 在多模态跟踪领域,最近的相关研究包括:Multi-modal Visual Object Tracking with Dynamic Gated Fusion、Multi-Modal Tracking with Online Multi-Kernelized Correlation Filter、Multi-modal Deep Learning for Robust RGB-D Object Tracking等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流