M3GIA: A Cognition Inspired Multilingual and Multimodal General Intelligence Ability Benchmark

2024年06月08日
  • 简介
    随着最近的多模态大语言模型(MLLMs)在各种复杂任务上表现出强大的能力,越来越多的人开始关注这些模型是否最终能够模拟人类智能。然而,现有的基准主要集中在仅评估任务性能方面,例如识别对象属性的准确性。将认知科学与MLLM的智能能力结合起来,以理解其超越表面成就的智能能力,仍然鲜为人知。为此,我们引入了第一个认知驱动的多语言和多模式基准M3GIA,以评估MLLM的普遍智能能力。具体而言,我们根据公认的Cattell-Horn-Carrol(CHC)智能模型确定了五个关键认知因素,并提出了一种新的评估指标。此外,由于大多数MLLM是在不同的语言环境中进行训练的,自然而然地引出一个问题:语言是否是影响MLLM认知能力的关键因素?因此,我们除了英语之外,还包括了其他语言,如中文、法语、西班牙语、葡萄牙语和韩语,来构建我们的M3GIA。我们确保所有与文化背景相关的数据都是从其本土环境中收集的,以避免英语中心偏见。我们从人类参与者收集了大量的数据,发现最先进的MLLM在英语方面达到了人类智力的下限。然而,在其他五种语言方面仍存在明显的差距。我们还揭示了一个有趣的“胜者通吃”的现象,这与认知研究中的发现相一致。我们的基准将成为开源的,旨在促进MLLM的认知能力的提高。
  • 作者讲解
  • 图表
  • 解决问题
    M3GIA: 一种认知驱动的多语言多模态基准测试,用于评估多模态大语言模型的智能能力。
  • 关键思路
    该论文提出了一种基于Cattell-Horn-Carrol(CHC)智力模型的认知驱动的评估方法,以评估多模态大语言模型的智能能力。同时,该方法覆盖了英语、中文、法语、西班牙语、葡萄牙语和韩语等多种语言。
  • 其它亮点
    该论文提出了一种新的评估方法,以评估多模态大语言模型的智能能力。该方法覆盖了多种语言,并且数据集来源于其本土文化背景,避免了英语中心的偏见。实验结果显示,目前最先进的多模态大语言模型在英语方面已经达到了人类智能的下限,但在其他五种语言中存在明显的差距。该论文的数据集和代码将会开源。
  • 相关研究
    最近的相关研究包括:《GPT-3: 语言模型的新里程碑》、《多模态机器智能:综述与未来方向》、《基于Cattell-Horn-Carrol智力模型的人工智能评估方法》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问