- 简介最近,多模态大语言模型(MLLMs)的全面评估在研究界引起了广泛关注。然而,我们观察到现有基准存在几个共同的障碍,使得在真实世界中衡量模型面临的重大挑战变得困难,包括:1)小数据规模导致性能差异很大;2)依赖于基于模型的注释会导致数据质量受限;3)任务难度不足,特别是由于图像分辨率有限而引起的。为了解决这些问题,我们介绍了MME-RealWorld。具体而言,我们从公共数据集和互联网上收集了超过30万张图像,过滤出了13,366张高质量图像进行注释。这涉及到25位专业注释员和7位MLLMs专家的努力,共贡献了29,429个问题-答案对,涵盖了5个真实世界场景中的43个子任务,即使对于人类来说也极具挑战性。据我们所知,MME-RealWorld是迄今为止最大的手动注释基准,具有最高分辨率和针对真实世界应用的有针对性。我们进一步进行了全面评估,涉及28个杰出的MLLMs,例如GPT-4o、Gemini 1.5 Pro和Claude 3.5 Sonnet。我们的结果表明,即使是最先进的模型也在我们的基准测试中遇到了困难,其中没有一个达到60%的准确率。感知高分辨率图像和理解复杂的真实世界场景的挑战仍然是亟待解决的问题。数据和评估代码已发布在https://mme-realworld.github.io/。
- 图表
- 解决问题论文旨在解决现有基准测试存在的问题,包括数据规模小、数据质量差、任务难度不足等,提出MME-RealWorld用于评估多模态大语言模型在真实世界应用中的表现。
- 关键思路MME-RealWorld是目前最大的手动注释基准测试,涵盖了高分辨率图像和真实世界场景,对于目前最先进的模型来说仍然具有极大挑战性。
- 其它亮点论文收集了超过300K张图像,经过专业的25个注释者和7个多模态大语言模型专家的努力,筛选出13366张高质量图像进行注释,涵盖了5个真实世界场景的43个子任务。论文对28个主要的多模态大语言模型进行了全面评估,结果表明即使是最先进的模型在MME-RealWorld基准测试中也表现不佳。研究提出的MME-RealWorld基准测试可以促进多模态大语言模型在真实世界场景中的应用。
- 目前还没有太多相关研究。
沙发等你来抢
去评论
评论
沙发等你来抢