Fine-Grained Scene Image Classification with Modality-Agnostic Adapter

2024年07月03日
  • 简介
    在处理细粒度场景图像分类任务时,大多数先前的工作在进行多模态特征融合时,往往更加强调全局视觉特征。换句话说,这些模型是基于关于不同模态重要性的先前直觉而刻意设计的。在本文中,我们提出了一种新的多模态特征融合方法,名为MAA(Modality-Agnostic Adapter),试图让模型自适应地学习不同情况下不同模态的重要性,而无需在模型架构中提前设置。更具体地说,我们消除了模态分布上的差异,然后使用一个模态无关的Transformer编码器进行语义级别的特征融合。我们的实验表明,使用MAA并应用与先前方法相同的模态可以实现最先进的基准结果。此外,值得一提的是,使用MAA可以轻松添加新的模态并进一步提高性能。代码可在https://github.com/quniLcs/MAA上获得。
  • 图表
  • 解决问题
    论文旨在解决多模态场景图像分类中的特征融合问题,试图通过自适应学习不同情况下不同模态的重要性,从而提高分类准确性。
  • 关键思路
    MAA采用模态无关适配器和Transformer编码器实现语义级别的特征融合,消除了模态之间的差异,并实现了自适应学习。相比以往的方法,MAA不需要预先设置模型架构,可以轻松添加新的模态。
  • 其它亮点
    MAA在多个基准数据集上取得了最先进的结果,开源了代码,易于使用和扩展。此外,MAA的方法也为其他多模态任务提供了启示。
  • 相关研究
    在多模态场景图像分类领域,最近的相关研究包括:BAN、MFB、MFB+F、MCB等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论