VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval

2024年06月06日
  • 简介
    多模态检索在实践中越来越受欢迎。然而,现有的检索器大多是面向文本的,缺乏处理视觉信息的能力。尽管存在像CLIP这样的视觉语言模型,但目前的方法在表示仅文本或仅图像数据方面受到严重限制。在这项工作中,我们提出了一种新的嵌入模型VISTA,用于通用的多模态检索。我们的工作带来了三方面的技术贡献。首先,我们引入了一种灵活的架构,通过引入视觉标记嵌入,将强大的文本编码器扩展为具有图像理解能力。其次,我们开发了两种数据生成策略,以产生高质量的组合图像文本,以促进嵌入模型的训练。第三,我们引入了一种多阶段训练算法,首先使用大量弱标记数据将视觉标记嵌入与文本编码器对齐,然后使用生成的组合图像文本数据开发多模态表示能力。在我们的实验中,VISTA在各种零样本和监督设置的多模态检索任务中都取得了优越的性能。我们的模型、数据和源代码均可在https://github.com/FlagOpen/FlagEmbedding上获得。
  • 作者讲解
  • 图表
  • 解决问题
    VISTA试图解决当前多模态检索模型主要面向文本数据,无法处理视觉信息的问题。同时,它也试图解决现有方法在表示仅文本或仅图像数据方面的局限性。
  • 关键思路
    VISTA提出了一种灵活的架构,通过引入视觉令牌嵌入来扩展强大的文本编码器的图像理解能力。此外,它还开发了两种数据生成策略来提高模型的训练效果,并引入了多阶段训练算法来提高多模态表示能力。
  • 其它亮点
    该论文的亮点包括:VISTA在零样本和监督设置下,在各种多模态检索任务中均表现出优异的性能;论文提出的模型、数据和源代码都已经公开;论文提出的多阶段训练算法和数据生成策略值得进一步研究。
  • 相关研究
    最近的相关研究包括CLIP、ViLBERT、LXMERT等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问