- 简介在训练跨模态检索模型时,收集匹配良好的多媒体数据集非常重要。然而,在现实世界的场景中,大量的多模态数据是从互联网中收集而来的,其中不可避免地包含了部分不匹配的对(PMPs)。毫无疑问,这些语义不相关的数据将显著损害跨模态检索的性能。以前的努力倾向于通过估计软对应关系来降低PMPs的贡献。在本文中,我们从一个新的角度来解决这个挑战:不匹配样本之间的潜在语义相似性使得从不匹配对中挖掘有用的知识成为可能。为了实现这一目标,我们提出了L2RM,这是一个基于最优传输(OT)的通用框架,用于学习重新匹配不匹配的对。具体来说,L2RM旨在通过在不同模态之间寻找最小成本的传输计划来生成精细的对齐。为了在OT中形式化重新匹配的思想,首先,我们提出了一个自监督成本函数,它可以自动从显式的相似性-成本映射关系中学习。其次,我们提出了在限制虚假阳性之间的传输的情况下建模部分OT问题,以进一步提高精细对齐的效果。在三个基准测试中进行的大量实验表明,我们的L2RM显著提高了现有模型对PMPs的鲁棒性。代码可在https://github.com/hhc1997/L2RM上获得。
- 图表
- 解决问题如何解决从互联网上获取的大规模多模态数据中存在的部分不匹配对(PMPs)对跨模态检索性能的影响?
- 关键思路提出了L2RM框架,基于最优传输(OT)学习重新匹配不匹配的样本,通过寻找不同模态之间的最小成本传输计划来生成精细的对齐。
- 其它亮点L2RM通过重新匹配不匹配的样本,从不匹配的样本中挖掘有用的知识,显著提高了现有模型对PMPs的鲁棒性。在三个基准测试上进行了广泛的实验,并提供了开源代码。
- 相关研究包括使用软对应关系减轻PMPs影响的方法,以及使用OT来解决跨模态检索问题的其他方法。
沙发等你来抢
去评论
评论
沙发等你来抢