- 简介多模态大型语言模型(MLLMs)已经取得了显著进展,并展示了强大的知识理解和推理能力。然而,掌握领域特定知识对于评估MLLMs的智能仍然是一个挑战。目前,针对领域特定知识的多模态基准主要集中在英语的选择题上,这限制了评估的全面性。为此,我们介绍了CMMU,这是一个针对中文的多模态和多类型问题理解和推理的新基准。CMMU包括7个学科的3,603个问题,涵盖从小学到高中的知识。这些问题可以分为3种类型:选择题、多选题和填空题,给MLLMs带来了更大的挑战。此外,我们提出了一种严格的评估策略,称为ShiftCheck,用于评估选择题。该策略旨在减少位置偏差,最小化随机性对正确性的影响,并对位置偏差进行定量分析。我们评估了7个开源MLLMs以及GPT4-V、Gemini-Pro和Qwen-VL-Plus。结果表明,CMMU对最近的MLLMs构成了重大挑战。
- 图表
- 解决问题论文旨在解决多模态中文问题理解和推理的基准测试问题,以评估当前多模态大语言模型的领域特定知识掌握能力。同时,也试图解决当前基于多项选择题的评估方法的局限性和英文数据集的不足。
- 关键思路论文提出了一个新的基准测试CMMU,包含3603个问题,涵盖从小学到高中的7个学科,分为多项选择题、多项响应题和填空题三种类型,对于当前的多模态大语言模型提出了更高的挑战。同时,也提出了一种新的严格的评估策略ShiftCheck,以评估多项选择题的正确性和位置偏差。
- 其它亮点论文使用CMMU基准测试对7个开源多模态大语言模型进行了评估,包括GPT4-V、Gemini-Pro和Qwen-VL-Plus,结果表明CMMU对最近的多模态大语言模型提出了巨大挑战。此外,ShiftCheck评估策略可以减少位置偏差,最小化随机性对正确性的影响,并进行位置偏差的定量分析。
- 最近的相关研究包括英文的多模态基准测试,如CLEVR和GQA等。
沙发等你来抢
去评论
评论
沙发等你来抢