FACET: Fairness in Computer Vision Evaluation Benchmark
L Gustafson, C Rolland, N Ravi, Q Duval, A Adcock, C Fu, M Hall, C Ross
[Meta AI Research]
FACET:计算机视觉评估公平性基准
-
提出FACET,一个新的公平性基准,包含32k张图像和50k个人,用于评估计算机视觉模型。 -
包含人员层面对13个属性的详尽标注,如感知的性别、肤色、年龄组及发型。 -
包含52个与图像分类相关的人员细分类,如职业、运动、艺术等,这些类与ImageNet-21k类重叠。 -
图像包含人员的边框,以便于在分类、检测和分割任务之间进行分析。 -
来自“Segment Anything 1B”数据集的遮挡被标注为人、衣物或头发。 -
标注由不同地区的专业评审人员手动创建,以提高质量。 -
基准测试使得可以使用单个或多个人口统计属性探测视觉模型的偏差。 -
对分类、检测和分割模型的评估显示了属性上的性能差异。 -
目标是为从业者提供工具,以检测和缓解视觉系统中的不公平问题。 -
限制包括将现实世界概念作为数据集标签的困难,以及部分代表性。
动机:解决计算机视觉模型在性别和肤色等属性上存在的性能差异问题。
方法:提出一个名为FACET(FAirness in Computer Vision EvaluaTion)的评估基准,其中包含了32k张图像,用于常见的视觉任务-图像分类、物体检测和分割。通过雇佣专家评审员对FACET中的每张图像进行手动标注,包括感知肤色、发型等人相关属性的标注,手动绘制边界框,并标记细粒度的人相关类别。
优势:提供了一个统一的方法来衡量计算机视觉模型在常见用例中的性能差异,并通过详细的标注提供了深入理解潜在的性能差异和挑战。
提出一个评估基准FACET,通过标注和分析人相关属性的多个维度,揭示了计算机视觉模型在性能和公平性方面存在的差异。
https://arxiv.org/abs/2309.00035
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢