- 简介尽管Multimodal Large Language Models (MLLMs)在基准测试中表现出色,但它们在现实世界、长文本和多图像任务中的有效性尚不清楚,因为基准测试的范围有限。现有的基准测试通常集中在单个图像和短文本样本上,而在评估多图像任务时,它们要么限制图像数量,要么集中于特定任务(例如时间序列字幕),可能掩盖了MLLM的性能挑战。为了解决这些限制,我们介绍了MileBench,这是一个开创性的基准测试,旨在测试MLLM的MultImodal Long-contExt能力。这个基准测试不仅包括多模式长上下文,还包括需要理解和生成的多个任务。我们建立了两个不同的评估集,即诊断性和现实性,以系统地评估MLLM的长上下文适应能力和它们在长上下文场景中完成任务的能力。我们从测试22个模型中获得的实验结果表明,尽管闭源的GPT-4o表现优于其他模型,但大多数开源MLLM在长上下文情况下表现较差。有趣的是,随着图像数量的增加,性能差距往往会扩大。我们强烈鼓励加强研究,以增强MLLM的长上下文能力,特别是在涉及多个图像的情况下。
-
- 图表
- 解决问题本论文旨在解决当前多模态大语言模型(MLLMs)在现实世界、长上下文、多图像任务中的有效性问题,以及评估它们的长上下文适应能力和任务完成能力。
- 关键思路论文提出了MileBench基准测试,包含多模态长上下文和需要理解和生成的多个任务,以系统评估MLLMs的长上下文适应能力和任务完成能力。实验结果表明,大多数开源MLLMs在长上下文情况下表现不佳,尤其是在涉及多图像的情况下。
- 其它亮点MileBench是一个新颖的基准测试,旨在测试MLLMs的长上下文适应能力和任务完成能力。论文测试了22个模型,并发现闭源的GPT-4o表现最佳。实验结果表明,MLLMs在长上下文情况下表现不佳,尤其是在涉及多图像的情况下。研究人员强烈建议加强研究,以提高MLLMs在长上下文情况下的能力。
- 在相关研究中,最近的工作主要集中在改进大型语言模型的性能和效率方面,例如GPT-3和T5等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流