Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models

简介

多模态大型语言模型（MLLMs）已经在各种应用中展现出了显著的优势，引起了研究人员和实践者的广泛关注。然而，对它们长上下文能力的全面评估仍未得到充分探索。为了填补这些空白，我们引入了MultiModal Needle-in-a-haystack（MMNeedle）基准测试，专门设计用于评估MLLMs的长上下文能力。除了多图像输入外，我们还采用图像拼接来进一步增加输入上下文长度，并开发了一个协议来自动生成子图像级别的标签以进行检索。实质上，MMNeedle通过压力测试MLLMs的能力来定位一组图像（干草堆）中的目标子图像（针），这是基于图像内容的文本指令和描述。这种设置需要对广泛的视觉上下文和长上下文图像输入内的有效信息检索具有先进的理解能力。通过这个基准测试，我们评估了最先进的MLLMs，包括基于API和开源模型。研究结果显示，GPT-4o在长上下文场景中始终优于其他模型，但在负样本（即针不在干草堆中）中存在幻觉问题。我们对MLLMs进行了全面的长上下文评估，也揭示了基于API和开源模型之间相当大的性能差距。所有代码、数据和重现主要结果所需的说明都可在https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack上找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在评估多模态大语言模型（MLLMs）在长文本上下文方面的能力，并提出了一个新的基准测试MMNeedle来评估MLLMs的长上下文能力。
关键思路

论文使用图像拼接技术和自动生成标签的协议，对MLLMs在长文本上下文中定位目标子图像的能力进行了评估。研究表明，GPT-4o在长上下文情况下表现最佳，但在负样本中存在幻觉问题。
其它亮点

本文提出了一个新的基准测试MMNeedle来评估MLLMs的长上下文能力，实验使用了API-based和开源模型，研究发现GPT-4o在长上下文情况下表现最佳。实验数据和代码已经开源。
相关研究

在该领域中的相关研究包括：《GPT-3：语言模型的新里程碑》、《ViLBERT：预训练语言和视觉编码器的联合学习》等。

Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models

提问交流

提问交流