- 简介视图间和模态间的图像匹配在多模态感知中起着至关重要的作用。实际上,由不同成像系统或风格导致的模态差距给匹配任务带来了巨大挑战。现有的方法试图为特定模态提取不变特征,并在有限的数据集上进行训练,这导致了较差的泛化能力。在本文中,我们提出了MINIMA,一个用于多种跨模态情况下的统一图像匹配框架。不追求复杂的模块,我们的MINIMA旨在从数据扩展的角度增强通用性能。为此,我们提出了一种简单而有效的数据引擎,可以自由生成包含多种模态、丰富场景和准确匹配标签的大规模数据集。具体来说,我们通过生成模型从廉价但丰富的仅RGB匹配数据中扩展模态。在这种设置下,生成的多模态数据很好地继承了RGB数据集的匹配标签和多样性。得益于此,我们构建了MD-syn,一个新的综合性数据集,填补了通用多模态图像匹配的数据空白。利用MD-syn,我们可以直接在随机选择的模态对上训练任何先进的匹配流水线,以获得跨模态能力。大量的实验,包括19个跨模态案例,在域内和零样本匹配任务中表明,我们的MINIMA显著优于基线方法,甚至超越了特定模态的方法。数据集和代码可在https://github.com/LSXI7/MINIMA获取。
- 图表
- 解决问题该论文旨在解决跨视图和跨模态图像匹配中的模态差距问题,这种差距由不同的成像系统或风格造成,给匹配任务带来了巨大挑战。现有的方法在特定模态上提取不变特征并在有限的数据集上训练,导致泛化能力较差。这是一个现有研究中尚未完全解决的问题。
- 关键思路MINIMA框架的关键思路是从数据扩展的角度提升通用性能,而不是追求复杂的模块设计。通过使用生成模型从廉价但丰富的RGB-only匹配数据中扩展模态,从而创建一个包含多种模态、丰富场景和准确匹配标签的大型数据集MD-syn。这种方法不仅继承了RGB数据集的多样性和匹配标签,还能够直接训练任何先进的匹配管道以获得跨模态能力。这一思路相比当前的研究更加注重数据的多样性和规模,从而提高了模型的泛化能力。
- 其它亮点论文的亮点包括:1)提出了一个新的综合数据集MD-syn,填补了跨模态图像匹配领域的数据空白;2)实验涵盖了19种跨模态情况,在域内和零样本匹配任务中都显著优于基线方法,甚至超过了特定模态的方法;3)代码和数据集已开源,便于后续研究者复现和改进。未来可以进一步研究如何将MINIMA应用于更多种类的模态和更复杂的场景。
- 近期相关研究包括《Cross-Modal Image Matching via Deep Learning》、《Learning Universal Representations for Cross-View Image Retrieval》和《Generative Models for Cross-Modality Image Synthesis》等。这些研究大多集中在特定模态的特征提取或有限数据集上的训练,而MINIMA则强调通过大规模数据集的构建来提升跨模态匹配的泛化能力。
沙发等你来抢
去评论
评论
沙发等你来抢