DEMO: A Statistical Perspective for Efficient Image-Text Matching

2024年05月19日
  • 简介
    图文匹配一直是一个长期存在的问题,它通过语义理解来连接视觉和语言。由于无监督哈希方法具有处理大规模原始数据的能力,因此近来备受关注。它们通常使用自然距离构建语义相似性结构,随后为模型优化过程提供指导。然而,在语义分布的边界处,相似性结构可能存在偏差,导致在顺序优化过程中误差累积。为了解决这个问题,我们引入了一种新的哈希方法,称为基于分布的结构挖掘与一致性学习(DEMO),用于高效的图文匹配。从统计学的角度来看,DEMO使用多个增强视图来表征每个图像,这些视图被认为是从其内在语义分布中抽取的样本。然后,我们使用非参数分布差异来确保稳健而精确的相似性结构。此外,我们引入了协作一致性学习,不仅在汉明空间中保留相似性结构,而且以自监督的方式鼓励不同方向的检索分布之间的一致性。通过对三个基准图文匹配数据集的广泛实验,我们证明DEMO相对于许多最先进的方法具有卓越的性能。
  • 图表
  • 解决问题
    本论文尝试通过构建语义相似性结构来实现图像-文本匹配,解决图像-文本匹配中存在的长期问题。
  • 关键思路
    论文提出了一种名为DEMO的新型哈希方法,通过使用多个增强视图来对每个图像进行建模,从而构建鲁棒且精确的相似性结构,并引入协作一致性学习来鼓励自我监督的一致性。
  • 其它亮点
    论文在三个基准图像-文本匹配数据集上进行了广泛的实验,证明DEMO相比许多现有方法具有更好的性能。此外,论文提供了开源代码。
  • 相关研究
    最近的相关研究包括:《Unsupervised Cross-Modal Hashing with Semantic-Awareness and Self-Supervision》、《Deep Semantic Hashing with Generative Adversarial Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论