- 简介嵌入模型在实现语义相似度、信息检索和聚类等各种下游任务方面起着至关重要的作用。最近,人们对开发能够概括跨任务的通用文本嵌入模型(例如MTEB)的兴趣激增。然而,尽管它们的重要性,但学习通用多模态嵌入模型的进展相对缓慢。本文旨在探索构建能够处理各种下游任务的通用嵌入的潜力。我们的贡献有两个:(1)MMEB(大规模多模态嵌入基准),涵盖4个元任务(即分类、视觉问答、多模态检索和视觉定位)和36个数据集,包括20个训练数据集和16个评估数据集;(2)VLM2Vec(视觉-语言模型->向量),一种对比训练框架,通过在MMEB上进行训练,将任何最先进的视觉-语言模型转换为嵌入模型。与以前的模型(如CLIP和BLIP)不同,VLM2Vec可以处理任何图像和文本的组合,根据任务指令生成固定维度的向量。我们在Phi-3.5-V上构建了一系列的VLM2Vec模型,并在MMEB的评估集上进行了评估。我们的结果表明,VLM2Vec在MMEB的内部和外部数据集上都比现有的多模态嵌入模型具有10%到20%的绝对平均改进。
- 图表
- 解决问题本文旨在探索建立通用嵌入模型的潜力,以处理广泛的下游任务,特别是视觉-语言任务。为此,提出了MMEB和VLM2Vec两个模型,以提高现有多模态嵌入模型的性能。
- 关键思路VLM2Vec是一种对比训练框架,通过在MMEB上进行训练,将任何最先进的视觉-语言模型转换为嵌入模型。相较于现有模型如CLIP和BLIP,VLM2Vec可以处理任何图像和文本的组合,并生成基于任务指令的固定维度向量。
- 其它亮点MMEB包括4个元任务和36个数据集,包括20个训练和16个评估数据集。VLM2Vec在Phi-3.5-V上构建了一系列模型,并在MMEB的评估分裂上进行了评估,结果表明,在MMEB的分布内和分布外数据集上,VLM2Vec相对于现有多模态嵌入模型的性能提高了10%到20%。
- 与本文相关的研究包括CLIP和BLIP等现有的多模态嵌入模型。
沙发等你来抢
去评论
评论
沙发等你来抢