- 简介视觉问答(VQA)是多模态人工智能中的重要任务,通常用于测试视觉语言模型理解和推理视觉和文本数据中存在的知识的能力。然而,目前大多数VQA模型使用的数据集主要集中在英语和少数主要世界语言上,图像通常是以西方为中心的。虽然最近的努力试图增加VQA数据集中的语言数量,但它们仍然缺乏低资源语言的多样性。更重要的是,尽管这些数据集通常通过翻译或其他方法扩展其语言范围,但它们通常保持图像不变,导致文化代表性狭窄。为了解决这些限制,我们构建了CVQA,一个新的跨文化多语言视觉问答基准,旨在涵盖丰富的语言和文化,我们在数据收集过程中吸引了本土说话人和文化专家的参与。因此,CVQA包括来自四个大洲28个国家的文化驱动的图像和问题,涵盖26种语言和11种文字,提供了总共9,000个问题。然后,我们在CVQA上对几个多模态大语言模型(MLLMs)进行基准测试,并显示该数据集对于当前最先进的模型是具有挑战性的。这个基准可以作为评估多模态模型文化能力和偏见的探测评估套件,并希望鼓励更多的研究努力,以增加这一领域的文化意识和语言多样性。
- 图表
- 解决问题构建一个文化多样性的多语言视觉问答基准数据集,以挑战当前最先进的多模态大语言模型,并促进增加文化意识和语言多样性的研究努力。
- 关键思路构建了一个包含来自28个国家、26种语言、11种文字的9k个问题的CVQA数据集,其中包含具有文化驱动力的图像和问题,挑战了当前最先进的多模态大语言模型,并提供了一个探测评估套件来评估多模态模型的文化能力和偏见。
- 其它亮点使用本土说话人和文化专家参与数据收集,提供了来自多个文化和语言背景的图像和问题,挑战了当前最先进的多模态大语言模型。实验结果表明,CVQA数据集是一个有挑战性的基准数据集。
- 最近的相关研究主要集中在扩展语言范围和增加多语言数据集的多样性,但这些数据集通常缺乏文化多样性。
沙发等你来抢
去评论
评论
沙发等你来抢