- 简介大规模视觉-语言模型的出现标志着实现通用人工智能迈出了重要的步伐。然而,这些进展往往会受到偏见的影响,这是一个尚未得到广泛调查的问题。现有的基准测试在评估偏见方面不够全面,因为它们的数据规模有限,提问格式单一,偏见来源狭窄。为了解决这个问题,我们引入了VLBiasBench,这是一个旨在全面评估LVLM偏见的基准测试。在VLBiasBench中,我们构建了一个数据集,包括九个不同的社会偏见类别,包括年龄、残疾状态、性别、国籍、外貌、种族、宗教、职业、社会经济地位以及两个交叉偏见类别(种族x性别和种族x社会经济地位)。为了创建一个大规模的数据集,我们使用Stable Diffusion XL模型生成了46,848张高质量的图像,这些图像与不同的问题组合形成了128,342个样本。这些问题被分类为开放式和封闭式类型,全面考虑了偏见来源,并从多个角度全面评估了LVLM的偏见。随后,我们对15个开源模型以及一个先进的闭源模型进行了广泛的评估,提供了一些新的洞见,揭示了这些模型中的偏见。我们的基准测试可在https://github.com/Xiangkui-Cao/VLBiasBench上获得。
-
- 图表
- 解决问题本论文旨在解决大型视觉语言模型(LVLMs)存在的偏见问题,提出了一个全面评估LVLM偏见的基准测试VLBiasBench。
- 关键思路论文提出了一个包含9个社会偏见类别和2个交叉类别的数据集,并使用开放和封闭式问题全面评估了15个开源模型和一个高级封闭模型的偏见。
- 其它亮点论文使用Stable Diffusion XL模型生成了46848张高质量图像,并结合不同问题形成了128342个样本。提出了一个全面评估LVLM偏见的基准测试VLBiasBench。论文开源了数据集和代码。
- 相关研究包括:1. Gonen和Goldberg(2019)提出了一种评估LVLM偏见的基准测试;2. Zhao等人(2021)提出了一个用于评估图像分类器偏见的基准测试ImageNet-A。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流