Cross-Modal Attention Alignment Network with Auxiliary Text Description for zero-shot sketch-based image retrieval

向作者提问

NEW

简介

本文研究了零样本基于草图的图像检索（ZS-SBIR）问题。之前的方法仅在两种模态下处理该问题，仅包含类别标签或甚至没有文本信息。然而，大规模预训练语言模型（LLMs）的普及越来越广泛，这些模型已经展示了从网络规模数据中学习的巨大知识，可以为我们提供结论性文本信息的机会。我们的关键创新在于将文本数据用作图像的辅助信息，从而利用语言提供的固有的零样本泛化能力。为此，我们提出了一种名为交叉模态注意力对齐网络的辅助文本描述的零样本基于草图的图像检索方法。该网络由三个组件组成：（i）描述生成模块，通过使用几个疑问句提示LLM为每个训练类别生成文本描述；（ii）特征提取模块，包括两个用于草图和图像数据的ViTs，一个用于提取每个训练类别的句子标记的transformer；最后，（iii）交叉模态对齐模块，使用交叉注意机制交换文本-草图和文本-图像的标记特征，并在局部和全局上对齐标记。在三个基准数据集上的广泛实验表明，我们的方法优于现有的ZS-SBIR方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决零样本基于草图的图像检索（ZS-SBIR）问题，即在没有给定标签或文本信息的情况下，通过利用大规模预训练语言模型的文本信息作为辅助信息，提高零样本图像检索的准确性。
关键思路

本文提出了一种名为Cross-Modal Attention Alignment Network with Auxiliary Text Description的方法，通过三个模块实现了文本信息和图像信息的交互对齐，从而提高了零样本图像检索的准确性。
其它亮点

本文的亮点在于使用大规模预训练语言模型的文本信息作为辅助信息，提高了零样本图像检索的准确性；文中提出的Cross-Modal Attention Alignment Network with Auxiliary Text Description方法包含三个模块，分别是Description Generation Module、Feature Extraction Module和Cross-modal Alignment Module；实验结果表明，本文的方法在三个基准数据集上表现优于当前最先进的ZS-SBIR方法。
相关研究

与本文相关的研究包括：Zero-shot sketch-based image retrieval via semantic consistency（ICCV 2017）、Sketch Me That Shoe（CVPR 2016）等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问