Cross-Modal and Uni-Modal Soft-Label Alignment for Image-Text Retrieval

向作者提问

NEW

简介

目前的图像-文本检索方法近年来表现出了惊人的性能。然而，它们仍然面临两个问题：跨模态匹配缺失问题和单模态语义损失问题。这些问题会严重影响图像-文本检索的准确性。为了解决这些挑战，我们提出了一种新的方法，称为跨模态和单模态软标签对齐（CUSA）。我们的方法利用单模态预训练模型的能力，为图像-文本检索模型提供软标签监督信号。此外，我们引入了两种对齐技术，跨模态软标签对齐（CSA）和单模态软标签对齐（USA），以克服假阴性并增强单模态样本之间的相似性识别。我们的方法旨在实现即插即用，这意味着它可以轻松应用于现有的图像-文本检索模型，而不改变它们的原始架构。通过对各种图像-文本检索模型和数据集的广泛实验，我们证明了我们的方法可以持续提高图像-文本检索的性能，并实现了新的最先进结果。此外，我们的方法还可以提高图像-文本检索模型的单模态检索性能，使其实现通用检索。代码和补充文件可在https://github.com/lerogo/aaai24_itr_cusa找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文试图解决图像-文本检索中的两个问题：跨模态匹配缺失问题和单模态语义损失问题。这些问题会显著影响图像-文本检索的准确性。
关键思路

本论文提出了一种名为CUSA的新方法，利用单模态预训练模型为图像-文本检索模型提供软标签监督信号，同时引入两种对齐技术，即跨模态软标签对齐和单模态软标签对齐，以解决误判和增强单模态样本之间的相似性识别。
其它亮点

本论文的方法易于插入到现有的图像-文本检索模型中，不需要改变其原始架构。作者在多个数据集上进行了广泛的实验，证明了该方法可以持续提高图像-文本检索的性能，并取得了新的最先进结果。此外，该方法还可以提高图像-文本检索模型的单模态检索性能，实现通用检索。
相关研究

最近的相关研究包括：《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《Unifying Vision-and-Language Tasks via Text Generation》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问