- 简介大型语言模型(LLMs)的研究经常忽视微妙的偏见,尽管这些偏见不太明显,但它们可以显着地影响模型的输出,使其偏向特定的社会叙事。本研究解决了LLMs中的两种偏见:代表性偏见,指LLMs倾向于生成反映某些身份群体经验的输出,以及亲和力偏见,反映了模型对特定叙事或观点的评价偏好。我们引入了两个新的度量指标来衡量这些偏见:代表性偏见分数(RBS)和亲和力偏见分数(ABS),并提出了创造性导向生成套件(CoGS),这是一个包含开放式任务的集合,如短篇小说写作和诗歌创作,旨在设计定制的评分标准以检测这些微妙的偏见。我们的分析揭示了突出的代表性偏见,这些偏见主要偏向与白人、异性恋和男性相关的身份。此外,我们对亲和力偏见的调查揭示了每个模型内独特的评价模式,类似于“偏见指纹”。这种趋势也在人类评估者中出现,突显了人类和机器偏见感知之间的复杂相互作用。
- 图表
- 解决问题该论文试图解决LLMs中存在的微妙偏见问题,包括代表性偏见和亲和偏见,这是否是一个新问题?
- 关键思路该论文提出了两个新的度量标准:代表性偏差分数(RBS)和亲和偏差分数(ABS),并设计了一组开放式任务(CoGS)来检测这些微妙偏见。通过分析,发现了突出的代表性偏见,以及每个模型中不同的亲和偏见评价模式,类似于“偏见指纹”。
- 其它亮点该论文的亮点包括提出了两个新的度量标准和设计了一组开放式任务来检测微妙偏见。实验结果表明,突出的代表性偏见和每个模型中不同的亲和偏见评价模式类似于“偏见指纹”。
- 最近的相关研究包括《GPT-3 Is Not a Mindreader: Estimating Mental State from Language Model Outputs》和《Language (Technology) is Power: A Critical Survey of “Bias” in NLP》等。
沙发等你来抢
去评论
评论
沙发等你来抢