- 简介多模态大语言模型(MLLMs)的快速发展突显了向学术界引入具有挑战性但现实的基准的必要性。现有的基准主要集中在简单的自然图像理解上,但Multi作为MLLMs的尖端基准出现,提供了一个全面的数据集,用于评估MLLMs对于理解复杂的图表和科学问题的能力。这个基准反映了当前现实的考试方式,提供了多模态的输入,并要求回答要么精确,要么开放式,类似于现实生活中的学校考试。它通过各种任务挑战MLLMs,从公式推导到图像细节分析和跨模态推理。Multi包含超过18,000个问题,重点关注多种格式的基于科学的问答。我们还引入了Multi-Elite,一个500个问题的子集,用于测试MLLMs的极端情况,以及Multi-Extend,它增强了上下文学习研究,提供了超过4,500个知识点。我们的评估表明,MLLMs具有显著的进步潜力,其中GPT-4V在Multi上达到了63.7%的准确率,而其他MLLMs的得分在31.3%到53.7%之间。Multi不仅作为一个强大的评估平台,还为发展专家级AI铺平了道路。
- 图表
- 解决问题论文旨在为多模态大语言模型(MLLMs)引入具有挑战性但现实的基准测试,以评估它们在理解复杂图表和科学问题方面的能力。
- 关键思路Multi是一个全面的数据集,涵盖了科学问答中的各种任务,包括公式推导、图像细节分析和跨模态推理,要求MLLMs提供准确或开放式的回答。Multi还包括Multi-Elite和Multi-Extend两个子集,分别用于测试MLLMs的极端能力和增强上下文学习研究。
- 其它亮点Multi数据集包括超过18,000个问题,涵盖了多种科学问题的不同格式。实验中使用了多种MLLMs,并且评估结果表明GPT-4V在Multi上取得了63.7%的准确率,相比其他MLLMs有显著的提高。Multi不仅是一个强大的评估平台,还为开发专家级AI铺平了道路。
- 最近的研究集中在多模态学习和大语言模型的发展上,例如ViLBERT和LXMERT。
沙发等你来抢
去评论
评论
沙发等你来抢