Dialect prejudice predicts AI decisions about people's character, employability, and criminality

简介

现在有数以亿计的人与语言模型进行交互，使用范围从写作辅助到影响招聘决策。然而，这些语言模型被认为会延续系统性的种族偏见，使其对非洲裔美国人等群体的判断存在问题。虽然以前的研究集中在语言模型中的明显种族主义，但社会科学家认为，随着时间的推移，一种更为微妙的隐性种族主义已经产生。目前尚不清楚这种隐性种族主义是否存在于语言模型中。在这里，我们证明语言模型体现了方言偏见的隐性种族主义：我们扩展了研究，表明美国人对非洲裔美国英语说话者持有种族语言刻板印象，并发现语言模型也有同样的偏见，表现出比任何实验记录的关于非洲裔美国人的人类刻板印象更为负面的隐性刻板印象，尽管最接近于民权运动之前的刻板印象。相比之下，语言模型对非洲裔美国人的明显刻板印象则更为积极。我们证明了方言偏见可能会产生有害后果，因为我们要求语言模型根据人们的说话方式做出假设性决策。语言模型更有可能建议将非洲裔美国英语说话者分配给不那么崇高的工作岗位，被定罪犯罪，并被判处死刑。最后，我们展示了现有的缓解语言模型中种族偏见的方法，如人类反馈培训，无法缓解方言偏见，但可能会加剧隐性和明显刻板印象之间的差异，因为它们教导语言模型表面上掩盖它们在更深层次上保持的种族主义。我们的发现对于语言技术的公平和安全就有着深远的影响。
图表
解决问题

论文旨在研究语言模型中的方言偏见问题，探讨是否存在隐蔽的种族主义，并分析其可能产生的危害。
关键思路

语言模型中存在隐蔽的种族主义，即方言偏见，这种偏见可能对人们的职业、司法决策等方面产生不公平的影响。目前已有的减少种族偏见的方法并不能缓解方言偏见问题。
其它亮点

论文使用实验证明，语言模型中存在针对非洲裔美国人方言的隐蔽种族偏见，这种偏见比任何人类实验记录的关于非洲裔美国人的偏见都更加负面。而语言模型中针对非洲裔美国人的明显偏见则更加正面。论文还探讨了减少种族偏见的方法对于缓解方言偏见的无效性，并指出这一问题需要引起重视。
相关研究

近期的相关研究包括《Language (Technology) is Power: A Critical Survey of “Bias” in NLP》、《Assessing and Mitigating Bias in Language Models: A Systematic Literature Review》等。

Dialect prejudice predicts AI decisions about people's character, employability, and criminality

评论