智源发布多模态模型中文评测基准CMMU，GPT-4V答题准确率约30%

前言

多模态模型（Large Multimodal Model，简称LMM）近期被认为是大模型研究和发展的一个关键领域。与早期只能处理单一数据类型（如文本、图像或音频）的机器学习模型不同，LMM 能同时处理和理解多种数据类型，更接近于人类大脑的工作方式，让人机交互变得更为灵活和多样化，提升模型的综合性能和理解深度。

然而，目前中文多模态模型领域缺乏全面、中立的评测基准。因此，为了推动该领域的进一步发展，智源研究院提出 CMMU —— 中文多模态多题型理解及推理评测基准，当前发布的 CMMU v0.1 版本从中国教育体系规范指导下的全国小学、初中、高中考试题中抽取并制作了3603道题目，题型包括单选题、多选题、填空题，并采用多重评测手段避免模型“随机猜对答案”。CMMU 整体难度较高，OpenAI 推出的 GPT-4V 多模态模型答题准确率在30%左右，经错误类型分析，LMM在图像理解和推理能力方面还有待提高。

为避免测试集数据集泄露，CMMU 评测基准当仅开源验证集及评测代码，测试集将集成至 FlagEval 大模型评测平台和 Hugging Face 平台，用户可自行申请评测。此外，智源团队正在邀请经验丰富的教师改编或新编学科考题，持续扩充 CMMU 评测集，以保证评测结果客观、公正；同时探索基于判别模型的评测方式，优化或替代传统基于规则的评测方式，以适应多模态模型的发展需要。

↓ CMUU相关链接

CMMU 验证集、评测代码及技术报告详见：

https://github.com/FlagOpen/CMMU

* FlagEval 及 Hugging Face 平台评测说明，请关注 GitHub 仓库更新

数据集构成

1. 数据概况

CMMU v0.1版本包含 3603 道题目，带有答案解析的题目有2585道。按照1:1划分验证集和测试集（验证集包含1800道题，测试集包含1803道题），验证集将完全公开，方便研究人员测试模型。

按照学段来划分，小学题目有250道，初中和高中分别为1697和1656道，其中，小学只包含了数学一门学科，初中和高中包含了七门学科。
难度划分为“普通”和“困难”的题目分布比例大致为8:2，难度划分依据是有经验的教师按照题目难度将分为“普通”和“困难”两类。

2. 数据预处理

数据集来源于全国各地小学到高中的考试题目，包含数学，物理，化学，生物，政治，地理，历史共计7门有较多图文题目的学科。

首先原始PDF格式的题目转成Json格式，并且把公式都转化为LaTeX格式，并且通过人工筛查去除了图片模糊，分辨率低的图片，处理了在转换公式为LaTeX格式遇到的问题。
特别说明：对于填空题，如果一道题里面有多个空，会尽可能拆分成单个填空的子问题（可能存在部分无法拆分的情况），最终 639道填空题被拆分成了1632个子问题。

题目样例：

评测分析

基于CMMU对3个闭源模型和7个开源模型进行了评测，整体结果如下：

总体来说，CMMU非常具有挑战性，目前 GPT-4V也只在验证集了和测试集上分别取得了30.19%和30.91%的准确率。挑战性一方面来源于题目总体难度大，多选题和填空题的题型比单选题难度更高，另一方面是由于我们采用了ShiftCheck的选择题评测方式，使得模型很难在实际不能做对的情况下随机地“猜对答案”。

从学科的角度分析，在政治、历史这种偏向于知识记忆的学科上，模型普遍可以取得更好的成绩，但是在数学、物理这类需要推理能力的学科，模型普遍表现不佳。这说明目前的多模态大模型，还需要强化推理能力。

基于本文提出的 ShiftCheck评测方式，我们进一步分析了对模型的 position bias，并 BiasRate定量分析position bias的的程度。实验发现：

在单选题中，模型普遍对一个或者两个位置存在选择倾向性，这再次验证了 position bias 是大模型是常见的问题。测试的10个模型中，没有模型对选项D有偏好。
整体效果好的模型，BiasRate 处于比较低的水平。

最后我们对GPT-4V使用了思维链（CoT）进行了错误分析。随机挑选了500道题目进行分析，发现错误最多的是以下三类：图像理解错误，推理错误和题目理解错误。

评测方式说明：ShiftCheck

在评测单选题时，我们采用了一种非常严格并且可以量化position bias的评测方式，有效的防止模型因为随机猜测或由于position bias 作出正确回答。

首先我们使用了mmbench中提到的Circular Evaluation的方式，如下图所示，把选项循环向右移动，如果一道题目有k个选项，对选项进行k次移动，然后把k个题干相同选项不同的题目送入模型评测。只有当这k次变换后的题目全部做对，这道题才能被判定为正确。

同时，我们还可以在第一步的基础上，衡量模型的position bias。通过上述的循环移动变换，可以保证每个选项在不同位置出现的概率均等。如果不存在position bias，每个选项被选中的概率也是均等的。基于这个理论，可以根据模型选择每个选项的概率分布，量化position bias。采用BiasRate来衡量position bias的程度，具体计算方式如下：

首先计算每个选项被选中的概率（m是每题选项个数，n是总题目数）：

然后把 P 的方差作为BiasRate：

由于目前的多模态模型的指令跟随能力有限，有时候会输出冗长的回答。为了减少答案的干扰，我们对回答进行了预处理。首先选取模型回答的最后一行作为候选答案；对于单选题和多选题，从候选答案中抽取出字母作为最终答案。

此外，我们还对不同的题型采用不同的评估策略（更多细节详见技术报告）：

单选题：使用ShiftCheck的方式，同时评测模型的准确率和BiasRate
多选题：当且仅当模型输出的选项和答案完全一致才算正确，否则认为是错误的
填空题：因为填空题的答案可能不唯一，一些和标准答案类似的描述也可以被认为是正确的。由于我们目前使用GPT-4去判断答案是否正确（考虑到GPT-4的成本问题，我们同时开源了基于规则的评测代码，大家可基于开源代码进行定制优化）。

敬请期待

CMMU 对更多开源多模态模型的评测结果将在 FlagEval 3月榜单中呈现，请关注“智源研究院”公众号获取最新讯息。

FlagEval（天秤）是北京智源人工智能研究院推出的大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能。当前 FlagEval 已推出大语言模型评测体系，评测超过90个开源及闭源模型，视觉、多模态、语音大模型评测即将上线，敬请期待。更多信息详见官方网站：

https://flageval.baai.ac.cn

内容中包含的图片若涉及版权问题，请及时与我们联系删除

智源发布多模态模型中文评测基准CMMU，GPT-4V答题准确率约30%

评论列表

评论