No Filter: Cultural and Socioeconomic Diversity in Contrastive Vision-Language Models

简介

我们研究了对比视觉语言模型（VLMs）中的文化和社会经济多样性。通过使用广泛的基准数据集和评估指标，我们提出了几个重要的发现。首先，常见的过滤训练数据到英语图像-文本对会劣化低社会经济地位社群的表现，并且对文化理解产生负面影响。值得注意的是，这种表现差距不被目前流行的基于西方中心的ImageNet和COCO数据集的评估指标所捕捉，甚至与之相矛盾。其次，在对英语内容进行微调之前，使用全球未经过滤的数据进行预训练可以提高文化理解，而不会牺牲在上述流行基准测试中的表现。第三，我们引入了地理定位作为一种新的评估指标，以评估VLMs中的文化多样性。我们的工作强调使用多样化的数据来创建更具包容性的多模态系统的价值，并为开发更好地代表全球视角的VLMs奠定了基础。
图表
解决问题

如何在对比视觉语言模型（VLMs）中考虑文化和社会经济多样性？
关键思路

使用全球、未过滤的数据进行预训练，再在英文内容上微调，可以提高文化理解，而不影响在常用基准数据集上的性能。同时，引入地理定位任务作为新的评估指标以评估VLMs中的文化多样性。
其它亮点

论文发现，常见的训练数据过滤英文图像-文本对的方法会对低社会经济地位社区造成不利影响，并且与以西方为中心的ImageNet和COCO数据集衍生的当前流行的评估指标相矛盾。实验使用了多个基准数据集和评估指标，并且提出了新的评估指标。
相关研究

相关研究包括《Vision-Language Pre-training with Contrastive Cross-lingual Supervision》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。

No Filter: Cultural and Socioeconomic Diversity in Contrastive Vision-Language Models

评论