MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs

2024年11月04日
  • 简介
    最先进的检索模型通常处理的是一个简单的搜索场景,其中检索任务是固定的(例如,找到一段文字来回答特定的问题),并且查询和检索结果仅支持单一模态。本文介绍了利用多模态大语言模型(MLLM)推进信息检索的技术,使更广泛的搜索场景成为可能,这种场景被称为通用多模态检索,能够容纳多种模态和多样化的检索任务。为此,我们首先研究了在10个数据集上对16个检索任务进行微调的MLLM作为双编码器检索器。我们的实证结果显示,经过微调的MLLM检索器能够理解包含文本和图像的复杂查询,但在跨模态检索任务中由于MLLM的模态偏差而表现不如较小的CLIP检索器。为了解决这一问题,我们提出了模态感知的困难负样本挖掘方法,以减轻MLLM检索器表现出的模态偏差。其次,我们提出持续微调通用多模态检索器,以增强其文本检索能力,同时保持多模态检索能力。因此,我们的模型MM-Embed在涵盖多个领域和任务的多模态检索基准M-BEIR上达到了最先进水平,同时在MTEB检索基准上也超越了最先进的文本检索模型NV-Embed-v1。最后,我们探讨了将现成的MLLM作为零样本重排序器来优化多模态检索器候选结果的排名。我们发现,通过提示和重排序,MLLM在用户查询(例如,文本-图像组合查询)更为复杂和难以理解时,可以进一步提高多模态检索性能。这些发现也为未来推进通用多模态检索铺平了道路。
  • 图表
  • 解决问题
    该论文旨在解决信息检索领域中的多模态检索问题,特别是如何在支持多种模态和多样检索任务的情况下提升检索系统的性能。这是一个相对较新的问题,因为传统的检索模型通常只支持单一模态,并且检索任务较为固定。
  • 关键思路
    论文的关键思路是通过细调多模态大语言模型(MLLMs)作为双编码器检索器,来实现更广泛的多模态检索任务。此外,为了解决MLLMs在跨模态检索任务中的模态偏差问题,提出了模态感知的困难负样本挖掘方法。进一步,通过持续细调来增强模型的文本检索能力,同时保持多模态检索能力。
  • 其它亮点
    论文在多个数据集和任务上进行了广泛实验,展示了其方法的有效性。具体来说,MM-Embed在多模态检索基准M-BEIR上取得了最先进的性能,并且在MTEB文本检索基准上也超过了现有的最佳模型NV-Embed-v1。此外,论文还探索了使用预训练的MLLMs作为零样本重排序器,以进一步提高复杂查询的检索效果。所有实验代码和数据集均已开源,为未来的研究提供了基础。
  • 相关研究
    近期在这个领域的一些相关研究包括: 1. 'CLIP: Connecting Text and Images' - 提出了一种强大的跨模态检索模型。 2. 'BEIR: A Heterogeneous Benchmark for Zero-Shot Evaluation of Information Retrieval Models' - 构建了一个用于零样本信息检索模型评估的异构基准。 3. 'MTEB: Multilingual Task-based Evaluation Benchmark' - 提供了一个多语言任务基准,用于评估各种自然语言处理任务的模型性能。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问