CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning

简介

多模态大型语言模型（MLLMs）已经取得了显著的进展，并展示了强大的知识理解和推理能力。然而，掌握领域特定的知识，这对于评估MLLMs的智能至关重要，仍然是一个挑战。目前，针对领域特定知识的多模态基准主要集中在选择题上，并且主要用英语编写，这对评估的全面性造成了限制。为此，我们介绍了CMMU，这是一个新颖的用于理解和推理中文多模态和多类型问题的基准。CMMU包括7个学科的3,603个问题，涵盖了从小学到高中的知识。这些问题可以分为3种类型：多项选择题、多项响应题和填空题，这给MLLMs带来了更大的挑战。此外，我们提出了一种严格的评估策略，称为ShiftCheck，用于评估多项选择题。该策略旨在减少位置偏差，最小化随机性对正确性的影响，并对位置偏差进行定量分析。我们评估了七个开源MLLMs以及GPT4-V、Gemini-Pro和Qwen-VL-Plus。结果表明，CMMU对最近的MLLMs构成了重大挑战。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文介绍了CMMU，一个用于测试中文多模态多类型问题理解和推理的基准测试集。该测试集旨在解决当前多模态测试集中缺乏针对领域特定知识的问题的问题，并且大多数测试集都只提供英文问题的问题。
关键思路

该论文提出了CMMU基准测试集，包含3603个问题，分为7个学科，涵盖小学到高中的知识。问题分为三种类型：多选题，多选题和填空题，这对于多模态模型提出了更大的挑战。此外，论文还提出了一种称为ShiftCheck的严格评估策略，用于评估多选题。
其它亮点

论文评估了七个开源的多模态大语言模型以及GPT4-V，Gemini-Pro和Qwen-VL-Plus。结果表明，CMMU对最近的多模态大语言模型构成了巨大的挑战。
相关研究

最近的相关研究主要集中在英文多模态测试集上，如GQA和CLEVR。

CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning

提问交流

提问交流