The Silicon Ceiling: Auditing GPT's Race and Gender Biases in Hiring

简介

大型语言模型（LLMs）越来越多地被引入工作场所，目的是提高效率和公平性。然而，人们对这些模型可能反映或加剧社会偏见和刻板印象的担忧已经出现。本研究探讨了LLMs对招聘实践的潜在影响。为此，我们对一种常用的LLM——OpenAI的GPT-3.5进行了算法审计，以种族和性别偏见为重点，受传统离线简历审计历史的启发。我们进行了两项研究，使用具有不同种族和性别内涵的名称：简历评估（研究1）和简历生成（研究2）。在研究1中，我们要求GPT对32个不同名称（每个组合的2个性别和4个种族组合中的4个名称）和两个匿名选项在10个职业和3个评估任务（总体评分、面试意愿和可雇佣性）中评分简历。我们发现该模型反映了一些基于刻板印象的偏见。在研究2中，我们提示GPT为虚构的求职者创建简历（每个名称10个）。在生成简历时，GPT揭示了潜在的偏见；女性的简历经验较少，而亚裔和西班牙裔的简历则有移民标记，如非母语英语和非美国教育和工作经历。我们的研究结果有助于增加关于LLM偏见的文献，特别是在工作场所环境中使用时。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
解决问题

研究LLM在招聘中的潜在影响，探讨其是否会反映或加剧社会偏见和刻板印象。
关键思路

通过对常用LLM GPT-3.5进行算法审计，研究其在种族和性别偏见方面的表现。研究包括简历评估和简历生成两个实验。
其它亮点

研究发现GPT-3.5存在一定程度的偏见，女性的简历中职业经验较少，亚洲和西班牙裔的简历中存在移民标记。研究为LLM偏见领域的文献提供了新的贡献。
相关研究

最近的相关研究包括《Language (Technology) is Power: A Critical Survey of “Bias” in NLP》、《Assessing and Mitigating Bias in Natural Language Inference》等。

The Silicon Ceiling: Auditing GPT's Race and Gender Biases in Hiring

提问交流

提问交流