Large language models cannot replace human participants because they cannot portray identity groups

简介

大型语言模型（LLMs）在能力和受欢迎程度上不断增长，推动它们在新领域的应用——包括作为计算社会科学、用户测试、注释任务等领域中人类参与者的替代品。传统上，在所有这些情况下，调查分发者都会小心地寻找人口的代表样本，以确保其结果的有效性并了解潜在的人口统计差异。这意味着为了成为合适的替代品，LLMs需要能够捕捉位置性的影响（即社会身份如性别和种族的相关性）。然而，我们展示了当前LLMs的两个固有限制，阻止了这一点。我们在理论上论证了为什么LLMs注定会误传和扁平化人口统计群体的表征，然后通过一系列人类研究在4个LLMs上实证了这一点，涉及16个人口统计身份的3200个参与者。我们还讨论了第三个问题，即身份提示如何使身份本质化。在整个过程中，我们将每个限制与恶性历史联系起来，说明为什么每个限制对边缘化的人口统计群体都是有害的。总体而言，我们敦促在LLMs旨在替代与任务相关的人类参与者的用例中谨慎使用。同时，在目标是补充而不是替代的情况下（例如试点研究），我们提供了更好的实证推理技术来减少但不能消除这些伤害。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本文试图验证当前大型语言模型（LLMs）在处理社会身份相关任务时存在的固有局限性，即无法准确地表达和区分不同的人口群体。
关键思路

本文通过分析和实验，证明当前的LLMs存在两个固有限制，即无法准确地表达和区分不同的人口群体，同时也会扁平化这些人口群体的表示。作者提出了一些推理时间技术来减少这些限制的影响。
其它亮点

本文通过人类实验对四个LLMs进行了测试，共有3200名参与者，验证了LLMs在处理社会身份相关任务时的固有局限性。作者提出的推理时间技术可以在一定程度上减少这些限制的影响。作者还提到了标识提示会将身份本质化的问题。
相关研究

在这个领域中，最近的相关研究包括：《Language (Technology) is Power: A Critical Survey of “Bias” in NLP》、《Measuring and Mitigating Unintended Bias in Text Classification》等。

Large language models cannot replace human participants because they cannot portray identity groups

提问交流

提问交流