Cross-Modal and Uni-Modal Soft-Label Alignment for Image-Text Retrieval

2024年03月08日
  • 简介
    目前的图像-文本检索方法近年来表现出了惊人的性能。然而,它们仍然面临两个问题:跨模态匹配缺失问题和单模态语义损失问题。这些问题会严重影响图像-文本检索的准确性。为了解决这些挑战,我们提出了一种新的方法,称为跨模态和单模态软标签对齐(CUSA)。我们的方法利用单模态预训练模型的能力,为图像-文本检索模型提供软标签监督信号。此外,我们引入了两种对齐技术,跨模态软标签对齐(CSA)和单模态软标签对齐(USA),以克服假阴性并增强单模态样本之间的相似性识别。我们的方法旨在实现即插即用,这意味着它可以轻松应用于现有的图像-文本检索模型,而不改变它们的原始架构。通过对各种图像-文本检索模型和数据集的广泛实验,我们证明了我们的方法可以持续提高图像-文本检索的性能,并实现了新的最先进结果。此外,我们的方法还可以提高图像-文本检索模型的单模态检索性能,使其实现通用检索。代码和补充文件可在https://github.com/lerogo/aaai24_itr_cusa找到。
  • 作者讲解
  • 图表
  • 解决问题
    本论文试图解决图像-文本检索中的两个问题:跨模态匹配缺失问题和单模态语义损失问题。这些问题会显著影响图像-文本检索的准确性。
  • 关键思路
    本论文提出了一种名为CUSA的新方法,利用单模态预训练模型为图像-文本检索模型提供软标签监督信号,同时引入两种对齐技术,即跨模态软标签对齐和单模态软标签对齐,以解决误判和增强单模态样本之间的相似性识别。
  • 其它亮点
    本论文的方法易于插入到现有的图像-文本检索模型中,不需要改变其原始架构。作者在多个数据集上进行了广泛的实验,证明了该方法可以持续提高图像-文本检索的性能,并取得了新的最先进结果。此外,该方法还可以提高图像-文本检索模型的单模态检索性能,实现通用检索。
  • 相关研究
    最近的相关研究包括:《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《Unifying Vision-and-Language Tasks via Text Generation》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问