- 简介基础模型和视觉语言预训练显著推进了视觉语言模型(VLM),实现了对视觉和语言数据的多模态处理。然而,它们的表现通常是在一般场景理解方面进行评估,即识别对象、属性和动作,而不是文化理解。本研究介绍了CulturalVQA,这是一个视觉问答基准,旨在评估VLM对地理多样化文化的理解能力。我们精选了2,378个图像-问题对,每个问题有1-5个答案,代表来自5个大洲的11个国家的文化。这些问题探究了文化的各个方面,如服装、食物、饮料、仪式和传统。在CulturalVQA上对VLM进行基准测试,包括GPT-4V和Gemini,揭示了它们在不同地区的文化理解水平存在差异,北美的文化理解能力较强,而非洲的表现显著较低。我们还观察到它们在文化方面的表现存在差异,服装、仪式和传统的表现要优于食物和饮料。这些差异帮助我们确定VLM缺乏文化理解的领域,并展示了CulturalVQA作为全面评估VLM在理解不同文化方面取得进展的评估集的潜力。
- 图表
- 解决问题本文旨在介绍CulturalVQA,一个用于评估视觉语言模型(VLM)对地理多样化文化理解的视觉问答基准。研究人员发现,VLM在对文化的理解方面存在差异,这些差异可用于确定VLM在理解不同文化方面的缺陷。
- 关键思路本文提出了一个新的视觉问答基准,名为CulturalVQA,用于评估VLM对不同文化的理解能力。通过在CulturalVQA上对GPT-4V和Gemini等VLM进行基准测试,发现它们在不同区域和文化方面的表现存在差异。
- 其它亮点本文提出了一个新的视觉问答基准,名为CulturalVQA,用于评估VLM对不同文化的理解能力。实验结果显示,VLM在不同区域和文化方面的表现存在差异,这些差异有助于确定VLM在理解不同文化方面的缺陷。本文还介绍了一个由2,378个图像-问题对组成的数据集,涵盖11个国家的5个大陆的文化,包括服装、食品、饮料、仪式和传统等方面的问题。
- 最近的相关研究包括:1.《ViLBERT:预训练任务和联合学习架构的视觉和语言交互》;2.《UNITER:多模态预训练图像和文本嵌入器》;3.《LXMERT:学习交叉模态嵌入的视觉语言预训练模型》等。
沙发等你来抢
去评论
评论
沙发等你来抢