随着最近的多模态大语言模型(MLLMs)在各种复杂任务上表现出强大的能力,越来越多的人开始关注这些模型是否最终能够模拟人类智能。然而,现有的基准主要集中在仅评估任务性能方面,例如识别对象属性的准确性。将认知科学与MLLM的智能能力结合起来,以理解其超越表面成就的智能能力,仍然鲜为人知。为此,我们引入了第一个认知驱动的多语言和多模式基准M3GIA,以评估MLLM的普遍智能能力。具体而言,我们根据公认的Cattell-Horn-Carrol(CHC)智能模型确定了五个关键认知因素,并提出了一种新的评估指标。此外,由于大多数MLLM是在不同的语言环境中进行训练的,自然而然地引出一个问题:语言是否是影响MLLM认知能力的关键因素?因此,我们除了英语之外,还包括了其他语言,如中文、法语、西班牙语、葡萄牙语和韩语,来构建我们的M3GIA。我们确保所有与文化背景相关的数据都是从其本土环境中收集的,以避免英语中心偏见。我们从人类参与者收集了大量的数据,发现最先进的MLLM在英语方面达到了人类智力的下限。然而,在其他五种语言方面仍存在明显的差距。我们还揭示了一个有趣的“胜者通吃”的现象,这与认知研究中的发现相一致。我们的基准将成为开源的,旨在促进MLLM的认知能力的提高。
提问交流