- 简介跨模态检索(CMR)旨在建立不同模态之间的交互,其中监督CMR由于在学习语义类别判别方面的灵活性而逐渐兴起。尽管先前的监督CMR方法表现出色,但其成功很大程度上归功于精确标注的数据。然而,即使是对于单模态数据,精确的注释也是昂贵和耗时的,而在多模态场景下则更具挑战性。在实践中,大量的多模态数据是从互联网上收集的,具有粗略的注释,这必然会引入嘈杂的标签。使用这样的误导性标签进行训练将带来两个关键挑战——强制多模态样本对齐不正确的语义和扩大异构差距,导致检索性能差。为了解决这些挑战,本文提出了基于最优传输(OT)的统一框架UOT-RCL,用于强健的跨模态检索。首先,我们提出了一个基于部分OT的语义对齐,逐步校正嘈杂标签,其中设计了一种新颖的跨模态一致性成本函数,以融合不同模态并提供精确的传输成本。其次,为了缩小多模态数据中的差异,提出了一种基于OT的关系对齐,以推断语义级别的跨模态匹配。这两个组件都利用多模态数据之间的内在相关性,以促进有效的成本函数。在三个广泛使用的跨模态检索数据集上的实验表明,我们的UOT-RCL超越了现有技术,并显著提高了对嘈杂标签的鲁棒性。
-
- 图表
- 解决问题本文旨在解决跨模态检索中标注数据不准确、不一致、带有噪声等问题,提出了一种基于最优传输的统一框架,用于提高跨模态检索的鲁棒性。
- 关键思路本文提出了一种基于最优传输的统一框架(UOT-RCL),通过语义对齐和关系对齐来解决跨模态检索中的噪声标签、异构数据等问题。其中,语义对齐使用部分最优传输,设计了新的跨模态一致性成本函数,用于融合不同模态的信息和提供精确的传输成本;关系对齐使用基于最优传输的关系对齐,推断语义级别的跨模态匹配。
- 其它亮点本文的实验结果表明,UOT-RCL在三个广泛使用的跨模态检索数据集上超过了现有方法,并显著提高了对噪声标签的鲁棒性。本文的亮点包括:使用了基于最优传输的统一框架,解决了跨模态检索中的噪声标签、异构数据等问题;提出了新的跨模态一致性成本函数和基于最优传输的关系对齐方法;实验结果表明,UOT-RCL在噪声标签下具有鲁棒性,具有很好的性能。
- 最近的相关研究包括:基于深度学习的跨模态检索方法,如CMFH、DCCA等;基于最优传输的跨模态检索方法,如OT-CDL、OT-ITM等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流