Uncovering Name-Based Biases in Large Language Models Through Simulated Trust Game

简介

性别和种族可以从一个人的名字中推断出来，这是一个显著的刻板印象和偏见来源，会在社交互动中潜移默化地影响到人们。大量的人类实验证明，当一个人的名字暗示了一种主导性别或种族时，他们会得到更好的待遇。随着大型语言模型的能力越来越强，开始支持日常应用，研究它们在复杂社交互动中遇到名字时是否表现出类似的偏见变得至关重要。与以前在更基本的层面上研究语言模型中基于名字的偏见的工作不同，比如单词表示，我们挑战了三个著名的模型来预测修改后的信任博弈的结果，这是一个广为人知的研究信任和互惠的范例。为了确保实验的内部有效性，我们精心策划了一个代表种族的姓氏列表，以识别信任博弈中的玩家，并严格验证了提示的构造效度。我们实验的结果表明，我们的方法可以检测出基于名字的偏见，无论是基础模型还是指导调整模型。
图表
解决问题

本论文旨在检测语言模型中对姓名的种族和性别的偏见，并验证其是否会影响社交互动。
关键思路

通过修改Trust Game范例，挑战三个著名的语言模型来预测结果，检测姓名的偏见。
其它亮点

论文通过精心策划的实验设计，使用代表性的姓氏和验证过的提示，检测了基础和指导调整模型中的姓名偏见。同时，论文提出的方法可以在现实社交互动中检测姓名偏见，具有实际应用价值。
相关研究

最近的相关研究包括：《名字的种族和性别对句子情感分析的影响》、《基于对抗训练的消除语言模型中的性别偏见的方法》等。

Uncovering Name-Based Biases in Large Language Models Through Simulated Trust Game

评论