VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model

简介

大规模视觉-语言模型的出现标志着实现通用人工智能迈出了重要的步伐。然而，这些进展往往会受到偏见的影响，这是一个尚未得到广泛调查的问题。现有的基准测试在评估偏见方面不够全面，因为它们的数据规模有限，提问格式单一，偏见来源狭窄。为了解决这个问题，我们引入了VLBiasBench，这是一个旨在全面评估LVLM偏见的基准测试。在VLBiasBench中，我们构建了一个数据集，包括九个不同的社会偏见类别，包括年龄、残疾状态、性别、国籍、外貌、种族、宗教、职业、社会经济地位以及两个交叉偏见类别（种族x性别和种族x社会经济地位）。为了创建一个大规模的数据集，我们使用Stable Diffusion XL模型生成了46,848张高质量的图像，这些图像与不同的问题组合形成了128,342个样本。这些问题被分类为开放式和封闭式类型，全面考虑了偏见来源，并从多个角度全面评估了LVLM的偏见。随后，我们对15个开源模型以及一个先进的闭源模型进行了广泛的评估，提供了一些新的洞见，揭示了这些模型中的偏见。我们的基准测试可在https://github.com/Xiangkui-Cao/VLBiasBench上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决大型视觉语言模型（LVLMs）存在的偏见问题，提出了一个全面评估LVLM偏见的基准测试VLBiasBench。
关键思路

论文提出了一个包含9个社会偏见类别和2个交叉类别的数据集，并使用开放和封闭式问题全面评估了15个开源模型和一个高级封闭模型的偏见。
其它亮点

论文使用Stable Diffusion XL模型生成了46848张高质量图像，并结合不同问题形成了128342个样本。提出了一个全面评估LVLM偏见的基准测试VLBiasBench。论文开源了数据集和代码。
相关研究

相关研究包括：1. Gonen和Goldberg（2019）提出了一种评估LVLM偏见的基准测试；2. Zhao等人（2021）提出了一个用于评估图像分类器偏见的基准测试ImageNet-A。

VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model

提问交流

提问交流