MileBench: Benchmarking MLLMs in Long Context

向作者提问

NEW

简介

尽管Multimodal Large Language Models (MLLMs)在基准测试中表现出色，但它们在现实世界、长文本和多图像任务中的有效性尚不清楚，因为基准测试的范围有限。现有的基准测试通常集中在单个图像和短文本样本上，而在评估多图像任务时，它们要么限制图像数量，要么集中于特定任务（例如时间序列字幕），可能掩盖了MLLM的性能挑战。为了解决这些限制，我们介绍了MileBench，这是一个开创性的基准测试，旨在测试MLLM的MultImodal Long-contExt能力。这个基准测试不仅包括多模式长上下文，还包括需要理解和生成的多个任务。我们建立了两个不同的评估集，即诊断性和现实性，以系统地评估MLLM的长上下文适应能力和它们在长上下文场景中完成任务的能力。我们从测试22个模型中获得的实验结果表明，尽管闭源的GPT-4o表现优于其他模型，但大多数开源MLLM在长上下文情况下表现较差。有趣的是，随着图像数量的增加，性能差距往往会扩大。我们强烈鼓励加强研究，以增强MLLM的长上下文能力，特别是在涉及多个图像的情况下。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决当前多模态大语言模型（MLLMs）在现实世界、长上下文、多图像任务中的有效性问题，以及评估它们的长上下文适应能力和任务完成能力。
关键思路

论文提出了MileBench基准测试，包含多模态长上下文和需要理解和生成的多个任务，以系统评估MLLMs的长上下文适应能力和任务完成能力。实验结果表明，大多数开源MLLMs在长上下文情况下表现不佳，尤其是在涉及多图像的情况下。
其它亮点

MileBench是一个新颖的基准测试，旨在测试MLLMs的长上下文适应能力和任务完成能力。论文测试了22个模型，并发现闭源的GPT-4o表现最佳。实验结果表明，MLLMs在长上下文情况下表现不佳，尤其是在涉及多图像的情况下。研究人员强烈建议加强研究，以提高MLLMs在长上下文情况下的能力。
相关研究

在相关研究中，最近的工作主要集中在改进大型语言模型的性能和效率方面，例如GPT-3和T5等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问