A Unified Optimal Transport Framework for Cross-Modal Retrieval with Noisy Labels

向作者提问

NEW

简介

跨模态检索（CMR）旨在建立不同模态之间的交互，其中监督CMR由于在学习语义类别判别方面的灵活性而逐渐兴起。尽管先前的监督CMR方法表现出色，但其成功很大程度上归功于精确标注的数据。然而，即使是对于单模态数据，精确的注释也是昂贵和耗时的，而在多模态场景下则更具挑战性。在实践中，大量的多模态数据是从互联网上收集的，具有粗略的注释，这必然会引入嘈杂的标签。使用这样的误导性标签进行训练将带来两个关键挑战——强制多模态样本对齐不正确的语义和扩大异构差距，导致检索性能差。为了解决这些挑战，本文提出了基于最优传输（OT）的统一框架UOT-RCL，用于强健的跨模态检索。首先，我们提出了一个基于部分OT的语义对齐，逐步校正嘈杂标签，其中设计了一种新颖的跨模态一致性成本函数，以融合不同模态并提供精确的传输成本。其次，为了缩小多模态数据中的差异，提出了一种基于OT的关系对齐，以推断语义级别的跨模态匹配。这两个组件都利用多模态数据之间的内在相关性，以促进有效的成本函数。在三个广泛使用的跨模态检索数据集上的实验表明，我们的UOT-RCL超越了现有技术，并显著提高了对嘈杂标签的鲁棒性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决跨模态检索中标注数据不准确、不一致、带有噪声等问题，提出了一种基于最优传输的统一框架，用于提高跨模态检索的鲁棒性。
关键思路

本文提出了一种基于最优传输的统一框架（UOT-RCL），通过语义对齐和关系对齐来解决跨模态检索中的噪声标签、异构数据等问题。其中，语义对齐使用部分最优传输，设计了新的跨模态一致性成本函数，用于融合不同模态的信息和提供精确的传输成本；关系对齐使用基于最优传输的关系对齐，推断语义级别的跨模态匹配。
其它亮点

本文的实验结果表明，UOT-RCL在三个广泛使用的跨模态检索数据集上超过了现有方法，并显著提高了对噪声标签的鲁棒性。本文的亮点包括：使用了基于最优传输的统一框架，解决了跨模态检索中的噪声标签、异构数据等问题；提出了新的跨模态一致性成本函数和基于最优传输的关系对齐方法；实验结果表明，UOT-RCL在噪声标签下具有鲁棒性，具有很好的性能。
相关研究

最近的相关研究包括：基于深度学习的跨模态检索方法，如CMFH、DCCA等；基于最优传输的跨模态检索方法，如OT-CDL、OT-ITM等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问