A Sociotechnical Lens for Evaluating Computer Vision Models: A Case Study on Detecting and Reasoning about Gender and Emotion

2024年06月12日
  • 简介
    在计算机视觉技术不断发展的背景下,对图像中性别和情感的自动检测和解释是一个关键研究领域。本文研究了计算机视觉模型中的社会偏见,强调了传统评估指标(如精确度、召回率和准确度)的局限性。这些指标通常无法捕捉到性别和情感的复杂性,这些是流动的、文化上具有细微差别的构造。我们的研究提出了一个社会技术框架,用于评估计算机视觉模型,结合了技术性能指标和社会公平考虑。我们使用了一个包含5,570张有关疫苗和气候变化的图像数据集,实证比较了各种计算机视觉模型的性能,包括传统模型(如DeepFace和FER)和生成模型(如GPT-4 Vision)。我们的分析涉及手动验证图像子集中的性别和情感表达,作为基准。我们的研究发现,虽然GPT-4 Vision在性别分类的技术准确度上优于其他模型,但它存在歧视性偏见,特别是对跨性别和非二元人物的反应。此外,该模型的情感检测偏向于积极情绪,尤其是在受到男性角色的提示时,女性图像更容易被关联到快乐情绪。这些发现强调了需要制定更全面的评估标准,以解决计算机视觉模型中的有效性和歧视性偏见问题。我们提出的框架为研究人员提供了指导,以批判性地评估计算机视觉工具,确保它们在传播研究中的应用既具有道德性又有效。本研究的重要贡献在于强调了社会技术方法的重要性,倡导支持社会公益和减少偏见的计算机视觉技术。
  • 图表
  • 解决问题
    本论文旨在研究计算机视觉(CV)技术中的性别和情感识别问题中存在的社会偏见,并提出一个综合评估CV模型的社会技术框架。
  • 关键思路
    本文提出了一个社会技术框架,旨在综合考虑技术性能和社会公平性,以评估CV模型的性能。通过对5,570张与疫苗接种和气候变化相关的图片数据集进行实证比较,发现GPT-4 Vision模型在性别分类方面的技术准确性最高,但存在歧视性偏见,尤其是对跨性别和非二元人士的反应。此外,该模型的情感检测偏向于积极情感,并且女性图片与幸福情感的关联度较高,尤其是在男性人物提示下。该论文提出的框架为研究人员提供了评估CV工具的指南,以确保其应用在传播研究中既具有道德性又有效。
  • 其它亮点
    本文的亮点在于提出了一个社会技术框架,旨在综合考虑技术性能和社会公平性,以评估CV模型的性能。实验中使用了一个数据集,并对各种CV模型进行了比较。研究发现GPT-4 Vision模型在性别分类方面的技术准确性最高,但存在歧视性偏见,尤其是对跨性别和非二元人士的反应。此外,该模型的情感检测偏向于积极情感,并且女性图片与幸福情感的关联度较高,尤其是在男性人物提示下。
  • 相关研究
    最近在该领域中的相关研究包括:1.《Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification》;2.《Mitigating Bias in Gender Recognition for Non-Binary People with Deep Learning》;3.《Fairness in Facial Analysis and Detection Workshop》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论