Towards a Generalist and Blind RGB-X Tracker

2024年05月28日
  • 简介
    随着能够成功解决自然语言处理中多种任务的单一大型模型的出现,人们对在计算机视觉领域实现类似目标的研究兴趣日益增长。一方面,大多数这些通用模型,称为通用视觉模型,旨在产生为不同任务服务的统一输出。另一方面,一些现有模型旨在结合不同的输入类型(即数据模态),然后由单个大型模型处理。然而,这种组合步骤仍然是专业化的,无法满足最初的目标。在本文中,我们展示了在 RGB-X 视频目标跟踪中,在统一过程中这种专业化是不必要的。我们的单一模型跟踪器 XTrack 在推断时可以忽略任何模态 X。我们的跟踪器采用了一种混合模态专家的方法,其中一些专门用于共享共性,而另一些则能够灵活地执行与输入模态有关的推理。这种设计确保了将输入模态统一到共同的潜在空间中,而不削弱模态特定的信息表示。基于这个想法,我们的训练过程非常简单,将多标签分类损失与路由函数相结合,从而有效地将所有模态对齐和统一,即使只有成对的数据。因此,在推断过程中,我们可以采用任何模态,而不依赖于模态先验的归纳偏差,并实现通用性能。没有任何花哨的东西,我们的通用和盲目跟踪器在涵盖常用的深度、热成像和事件数据的3个辅助模态的5个基准测试中,可以实现与已建立的模态特定模型相当的性能。
  • 图表
  • 解决问题
    解决RGB-X视频目标跟踪中多模态数据融合的问题,实现单一模型对多种模态数据的跟踪能力。
  • 关键思路
    设计一种混合多模态专家的跟踪器,通过共享特征和灵活的推理方式将不同模态的输入融合到一个共同的潜在空间中,从而实现多模态数据的统一处理。
  • 其它亮点
    该跟踪器能够在推理时不依赖于任何模态的先验偏差,实现对任意模态的跟踪,且在常用的深度、热成像和事件数据上表现出与专门模态跟踪器相当的性能。
  • 相关研究
    近期相关研究包括多模态数据处理和单一模型跨多个视觉任务的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论