- 简介大型语言模型(LLMs)在能力和受欢迎程度上不断增长,推动它们在新领域的应用——包括作为计算社会科学、用户测试、注释任务等领域中人类参与者的替代品。传统上,在所有这些情况下,调查分发者都会小心地寻找人口的代表样本,以确保其结果的有效性并了解潜在的人口统计差异。这意味着为了成为合适的替代品,LLMs需要能够捕捉位置性的影响(即社会身份如性别和种族的相关性)。然而,我们展示了当前LLMs的两个固有限制,阻止了这一点。我们在理论上论证了为什么LLMs注定会误传和扁平化人口统计群体的表征,然后通过一系列人类研究在4个LLMs上实证了这一点,涉及16个人口统计身份的3200个参与者。我们还讨论了第三个问题,即身份提示如何使身份本质化。在整个过程中,我们将每个限制与恶性历史联系起来,说明为什么每个限制对边缘化的人口统计群体都是有害的。总体而言,我们敦促在LLMs旨在替代与任务相关的人类参与者的用例中谨慎使用。同时,在目标是补充而不是替代的情况下(例如试点研究),我们提供了更好的实证推理技术来减少但不能消除这些伤害。
-
- 图表
- 解决问题本文试图验证当前大型语言模型(LLMs)在处理社会身份相关任务时存在的固有局限性,即无法准确地表达和区分不同的人口群体。
- 关键思路本文通过分析和实验,证明当前的LLMs存在两个固有限制,即无法准确地表达和区分不同的人口群体,同时也会扁平化这些人口群体的表示。作者提出了一些推理时间技术来减少这些限制的影响。
- 其它亮点本文通过人类实验对四个LLMs进行了测试,共有3200名参与者,验证了LLMs在处理社会身份相关任务时的固有局限性。作者提出的推理时间技术可以在一定程度上减少这些限制的影响。作者还提到了标识提示会将身份本质化的问题。
- 在这个领域中,最近的相关研究包括:《Language (Technology) is Power: A Critical Survey of “Bias” in NLP》、《Measuring and Mitigating Unintended Bias in Text Classification》等。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流