- 简介我们介绍了MuirBench,这是一个全面的基准测试,专注于多模态LLM的鲁棒性多图像理解能力。MuirBench包括12个多样化的多图像任务(例如场景理解、排序),涉及10种多图像关系类别(例如多视图、时间关系)。MuirBench由11,264张图片和2,600个多项选择题组成,以成对方式创建,每个标准实例都与一个具有最小语义差异的无法回答的变体配对,以便进行可靠的评估。在20个最近的多模态LLM上进行评估,我们的结果显示,即使是最好的模型如GPT-4o和Gemini Pro也很难解决MuirBench,准确率分别为68.0%和49.3%。在单图像训练的开源多模态LLM几乎无法推广到多图像问题,准确率低于33.3%。这些结果突显了MuirBench在鼓励社区开发可以超越单张图像的多模态LLM方面的重要性,为未来的改进提供了潜在的途径。
- 图表
- 解决问题本论文旨在解决多模态LLM在多图像理解方面的鲁棒性问题,通过提出MuirBench数据集来评估模型的性能。
- 关键思路论文提出了一个包含12个多样化的多图像任务和10个多图像关系类别的数据集MuirBench,用于评估多模态LLM的性能,并通过对20个最新的多模态LLM进行评估,揭示了当前模型在解决多图像问题方面的局限性。
- 其它亮点MuirBench数据集由11,264张图像和2,600个多项选择问题组成,每个标准实例都与一个几乎没有语义差异的无法回答的变体配对,以确保评估的可靠性。实验结果表明,即使是最好的模型如GPT-4o和Gemini Pro在解决MuirBench数据集时也面临着挑战,准确率分别为68.0%和49.3%。此外,开源的单图像训练的多模态LLM在多图像问题上的泛化能力较弱,准确率不到33.3%。
- 最近的相关研究包括:《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
沙发等你来抢
去评论
评论
沙发等你来抢