See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding

简介

视觉语言模型（VLMs）可以用许多语言回答有关图像的查询。然而，除了语言外，文化也会影响我们看待事物的方式。例如，来自西方文化的人更关注图像中的中心人物，而来自东方文化的人则更关注场景背景。在这项工作中，我们提出了一项新的调查，展示并定位了VLMs在图像理解中的西方偏见。我们使用文化多样的图像和注释，在主观和客观的视觉任务中评估了大型的VLMs。我们发现，在每个任务的西方子集上，VLMs的表现要优于东方子集。通过追溯这种偏见的来源进行的控制实验强调了多样化的语言组合在纯文本预训练中对于构建公平的VLMs的重要性，即使是在英语推理的情况下也是如此。此外，虽然在目标文化的语言中提示可以减少偏见，但它不能替代构建更具代表性的世界语言的AI。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

研究VLMs在图像理解中的西方偏见，以及如何通过多语言预训练和多语言提示来减少偏见。
关键思路

通过对多元文化图像和注释的主观和客观视觉任务的评估，发现VLMs在西方子集上的表现优于东方子集。通过控制实验，发现多语言预训练可以建立更公平的VLMs，即使推理是用英语进行的。
其它亮点

实验使用了多元文化图像和注释，并提出了多语言预训练和多语言提示来减少VLMs的西方偏见。
相关研究

与本文相关的研究包括：《Visualizing and Measuring the Geometry of BERT》、《Cross-lingual Language Model Pretraining》等。

See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding

提问交流

提问交流