Needle In A Multimodal Haystack

简介

随着多模态大语言模型（MLLMs）的快速发展，它们的评估变得越来越全面。然而，理解长时间多模态内容作为现实世界应用的基本能力仍未得到充分探索。在这项工作中，我们提出了“多模态干草堆中的针头”（MM-NIAH），这是第一个专门设计用于系统评估现有MLLMs理解长时间多模态文档能力的基准。我们的基准包括三种类型的评估任务：多模态检索、计数和推理。在每个任务中，模型需要根据给定的多模态文档中分散的不同关键信息回答问题。通过对MM-NIAH上的领先MLLMs进行评估，我们观察到现有模型在这些任务上仍有显着的改进空间，特别是在以视觉为中心的评估上。我们希望这项工作可以为长时间多模态文档理解的进一步研究提供平台，并促进MLLMs的发展。代码和基准可在https://github.com/OpenGVLab/MM-NIAH上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决长篇多模态文档理解的问题，并提出了针对该问题的基准测试MM-NIAH。该问题是一个新问题。
关键思路

论文提出了三种评估任务：多模态检索、计数和推理，要求模型根据文档中分散的关键信息回答问题。通过在MM-NIAH上评估现有的MLLMs，发现现有模型在这些任务上仍有显着的改进空间，特别是在以视觉为中心的评估中。
其它亮点

值得关注的亮点包括：提出了针对长篇多模态文档理解的基准测试MM-NIAH；通过评估现有的MLLMs，揭示了这些模型在多模态理解任务上的不足之处；开源了代码和基准测试，为后续研究提供了平台。
相关研究

在这个领域中，最近的相关研究包括：VisualBERT、ViLBERT、LXMERT等。

提问交流

提问交流