MileBench: Benchmarking MLLMs in Long Context

2024年04月29日
  • 简介
    尽管Multimodal Large Language Models (MLLMs)在基准测试中表现出色,但它们在现实世界、长文本和多图像任务中的有效性尚不清楚,因为基准测试的范围有限。现有的基准测试通常集中在单个图像和短文本样本上,而在评估多图像任务时,它们要么限制图像数量,要么专注于特定任务(例如时间序列字幕),可能掩盖了MLLMs的性能挑战。为了解决这些限制,我们引入了MileBench,这是一个开创性的基准测试,旨在测试MLLMs的MultImodal Long-contExt能力。这个基准测试不仅包括多模态的长上下文,还包括需要理解和生成的多个任务。我们建立了两个不同的评估集,即诊断和现实,以系统地评估MLLMs的长上下文适应能力和它们在长上下文场景中完成任务的能力。我们从测试20个模型中获得的实验结果表明,虽然闭源的GPT-4(Vision)和Gemini 1.5的表现优于其他模型,但大多数开源的MLLMs在长上下文情况下表现不佳。有趣的是,随着图像数量的增加,性能差距往往会加大。我们强烈鼓励加强研究,以增强MLLMs的长上下文能力,特别是在涉及多个图像的情况下。
  • 图表
  • 解决问题
    本论文旨在解决Multimodal Large Language Models (MLLMs)在现实世界、长文本、多图像任务中的有效性问题,通过引入MileBench基准测试,评估MLLMs的适应能力和任务完成能力。
  • 关键思路
    通过MileBench基准测试,系统评估MLLMs的适应能力和任务完成能力,提出了两个评估集,分别是诊断集和现实集,评估结果表明大多数开源MLLMs在长文本情况下表现不佳,而闭源的GPT-4(Vision)和Gemini 1.5表现较好。
  • 其它亮点
    MileBench基准测试包含多模态长上下文和多个需要理解和生成的任务。论文设计了两个评估集,诊断集和现实集,以系统评估MLLMs的适应能力和任务完成能力。实验结果表明,大多数开源MLLMs在长文本情况下表现不佳,而闭源的GPT-4(Vision)和Gemini 1.5表现较好。这项研究鼓励加强研究努力,提高MLLMs在长文本情况下的适应能力,特别是在涉及多个图像的情况下。
  • 相关研究
    最近的相关研究包括:《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论