VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval

简介

多模态检索在实践中越来越受欢迎。然而，现有的检索器大多是面向文本的，缺乏处理视觉信息的能力。尽管存在像CLIP这样的视觉语言模型，但目前的方法在表示仅文本或仅图像数据方面受到严重限制。在这项工作中，我们提出了一种新的嵌入模型VISTA，用于通用的多模态检索。我们的工作带来了三方面的技术贡献。首先，我们引入了一种灵活的架构，通过引入视觉标记嵌入，将强大的文本编码器扩展为具有图像理解能力。其次，我们开发了两种数据生成策略，以产生高质量的组合图像文本，以促进嵌入模型的训练。第三，我们引入了一种多阶段训练算法，首先使用大量弱标记数据将视觉标记嵌入与文本编码器对齐，然后使用生成的组合图像文本数据开发多模态表示能力。在我们的实验中，VISTA在各种零样本和监督设置的多模态检索任务中都取得了优越的性能。我们的模型、数据和源代码均可在https://github.com/FlagOpen/FlagEmbedding上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

VISTA试图解决当前多模态检索模型主要面向文本数据，无法处理视觉信息的问题。同时，它也试图解决现有方法在表示仅文本或仅图像数据方面的局限性。
关键思路

VISTA提出了一种灵活的架构，通过引入视觉令牌嵌入来扩展强大的文本编码器的图像理解能力。此外，它还开发了两种数据生成策略来提高模型的训练效果，并引入了多阶段训练算法来提高多模态表示能力。
其它亮点

该论文的亮点包括：VISTA在零样本和监督设置下，在各种多模态检索任务中均表现出优异的性能；论文提出的模型、数据和源代码都已经公开；论文提出的多阶段训练算法和数据生成策略值得进一步研究。
相关研究

最近的相关研究包括CLIP、ViLBERT、LXMERT等。

VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval

提问交流

提问交流