CLIP-Branches: Interactive Fine-Tuning for Text-Image Retrieval

简介

文本图像模型的出现，尤其是CLIP模型，已经显著改变了信息检索的格局。这些模型使得各种模态（例如文本和图像）的融合成为可能。CLIP最重要的一个成果是它可以让用户使用文本作为查询来搜索图像，反之亦然。这是通过将图像和文本数据进行联合嵌入来实现的，可以用于搜索相似的项。尽管有近似最近邻搜索等高效的查询处理技术，但结果可能缺乏精确性和完整性。我们介绍了CLIP-Branches，这是一个基于CLIP架构构建的新型文本图像搜索引擎。我们的方法通过加入交互式微调阶段来增强传统的文本图像搜索引擎，使用户可以通过迭代地定义正面和负面示例来进一步具体化搜索查询。我们的框架涉及训练一个分类模型，给定额外的用户反馈，并基本上输出整个数据目录的所有正面分类实例。通过建立在最近的技术之上，这个推理阶段不是通过扫描整个数据目录来实现的，而是通过使用预先构建的数据的高效索引结构来实现的。我们的结果表明，微调后的结果可以在保持快速响应时间的同时，提高初始搜索输出的相关性和准确性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

CLIP-Branches: 一种基于CLIP的交互式文本-图像搜索引擎
关键思路

在传统的文本-图像搜索引擎的基础上，使用交互式微调阶段进一步细化搜索查询，通过训练分类模型输出整个数据目录中所有被分类为正的实例，从而提高搜索结果的相关性和准确性。
其它亮点

论文介绍了CLIP-Branches，一种基于CLIP的文本-图像搜索引擎，引入了交互式微调阶段，让用户进一步细化搜索查询，实验结果表明，微调结果可以提高搜索结果的相关性和准确性，同时保持快速响应时间。
相关研究

与该论文相关的研究包括CLIP模型本身以及其他文本-图像搜索引擎，如DALL-E和ViLBERT等。

CLIP-Branches: Interactive Fine-Tuning for Text-Image Retrieval

提问交流

提问交流