- 简介最近,许多多模态跟踪器将RGB作为主要模态,将其他模态视为辅助模态,并分别微调各种多模态任务。这种模态依赖的不平衡限制了方法在复杂场景中动态利用每个模态互补信息的能力,使得难以充分发挥多模态的优势。因此,统一参数模型在各种多模态跟踪任务中往往表现不佳。为了解决这一问题,我们提出了APTrack,这是一种专为多模态自适应感知设计的新型统一跟踪器。与先前的方法不同,APTrack通过平等建模策略探索统一表示。该策略使模型能够在不同模态和任务之间动态适应,而无需在不同任务之间进行额外的微调。此外,我们的跟踪器集成了一个自适应模态交互(AMI)模块,通过生成可学习的令牌高效地连接跨模态交互。在五个多样化的多模态数据集(RGBT234、LasHeR、VisEvent、DepthTrack和VOT-RGBD2022)上进行的实验表明,APTrack不仅超越了现有的最先进的统一多模态跟踪器,还在特定多模态任务设计的跟踪器中表现出色。
- 图表
- 解决问题该论文试图解决多模态跟踪中对RGB模态的过度依赖问题,这种依赖限制了模型在复杂场景中动态利用各模态互补信息的能力,导致现有统一参数模型在多种多模态任务中的表现不佳。这是一个需要改进的问题,但并非全新的问题。
- 关键思路论文提出的关键思路是通过APTrack实现多模态自适应感知。与传统方法不同,APTrack采用平等建模策略来探索统一表示,并通过引入自适应模态交互(AMI)模块生成可学习的token,以高效地连接跨模态交互。这一策略允许模型无需额外微调即可动态适应不同的模态和任务,具有创新性。
- 其它亮点该研究值得关注的地方包括:1) 在五个不同的多模态数据集(RGBT234、LasHeR、VisEvent、DepthTrack 和 VOT-RGBD2022)上进行了实验验证;2) APTrack不仅超越了现有的多模态统一跟踪器,还优于为特定多模态任务设计的跟踪器;3) 提出的AMI模块能够有效提升跨模态信息的融合效率;4) 论文提到未来可能会开源代码,这将有助于后续研究。
- 近期在这个领域内的相关研究还包括:1)《RGB-T Object Tracking: A Benchmark and New Performance Evaluators》;2)《Learning Spatial-Temporal Consistency for RGB-D Salient Object Detection》;3)《Cross-Modal Mutual Learning for RGB-Infrared Person Re-Identification》。这些研究均致力于改善多模态数据处理和融合的效果。
沙发等你来抢
去评论
评论
沙发等你来抢