Awesome Multi-modal Object Tracking

2024年05月23日
  • 简介
    多模态物体跟踪(MMOT)是一个新兴领域,它结合来自各种模态的数据,例如视觉(RGB)、深度、热红外、事件、语言和音频,以估计视频序列中任意物体的状态。它对许多应用程序非常重要,例如自动驾驶和智能监控。近年来,MMOT受到越来越多的关注。然而,现有的MMOT算法主要集中在两种模态上(例如RGB +深度,RGB +热红外和RGB +语言)。为了利用更多的模态,最近进行了一些努力,学习了一个统一的视觉物体跟踪模型,适用于任何模态。此外,一些大规模的多模态跟踪基准已经建立,同时提供了两个以上的模态,例如视觉-语言-音频(例如WebUAV-3M)和视觉-深度-语言(例如UniMod1K)。为了跟踪MMOT的最新进展,我们在本报告中进行了全面调查。具体而言,我们首先将现有的MMOT任务分为五个主要类别,即RGBL跟踪、RGBE跟踪、RGBD跟踪、RGBT跟踪和杂项(RGB + X),其中X可以是任何模态,例如语言、深度和事件。然后,我们分析和总结了每个MMOT任务,重点关注基于技术范式(例如自监督学习、提示学习、知识蒸馏、生成模型和状态空间模型)的广泛使用的数据集和主流跟踪算法。最后,我们维护一个持续更新的MMOT论文列表,网址为https://github.com/983632847/Awesome-Multimodal-Object-Tracking。
  • 作者讲解
  • 图表
  • 解决问题
    多模态物体跟踪是一个新兴的领域,本文试图通过结合不同的传感器数据来估计视频序列中任意物体的状态。本文的问题是综述和分析现有的多模态物体跟踪任务和算法,并探讨未来的研究方向。
  • 关键思路
    本文首先将现有的多模态物体跟踪任务分为五个主要类别,然后分析和总结每个任务,重点关注广泛使用的数据集和主流的跟踪算法。此外,本文维护一个持续更新的多模态物体跟踪论文列表。
  • 其它亮点
    本文介绍了现有的多模态物体跟踪算法,并分析了它们的技术范式。此外,本文还介绍了一些大规模多模态跟踪基准,并提供了一个持续更新的论文列表。本文的亮点包括对不同模态的综合利用以及对未来研究方向的探讨。
  • 相关研究
    最近的相关研究包括:UniMod1K和WebUAV-3M等大规模多模态跟踪基准,以及基于自监督学习、提示学习、知识蒸馏、生成模型和状态空间模型等技术范式的多模态物体跟踪算法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问