- 简介大型语言模型(LLMs)的研究经常忽略微妙的偏见,尽管这些偏见不太明显,但可以显着影响模型对特定社会叙事的输出。本研究解决了LLMs中的两种偏见:代表性偏见,指LLMs生成镜像某些身份群体经历的输出的倾向,以及亲和力偏见,反映了模型对特定叙事或观点的评价偏好。我们引入了两个新的指标来衡量这些偏见:代表性偏见得分(RBS)和亲和力偏见得分(ABS),并提出了面向创造性生成套件(CoGS),这是一组开放式任务,例如短篇小说写作和诗歌创作,设计了定制的评分标准来检测这些微妙的偏见。我们的分析揭示了著名LLMs中明显的代表性偏见,偏好与白人、异性恋和男性相关的身份。此外,我们对亲和力偏见的调查揭示了每个模型内独特的评价模式,类似于“偏见指纹”。这种趋势也可以在人类评估者中看到,突显了人类和机器偏见感知之间的复杂相互作用。
- 图表
- 解决问题这篇论文旨在解决大型语言模型中存在的代表性偏差和亲和力偏差的问题,这些偏差会导致模型输出偏向特定社会叙事。
- 关键思路论文引入了两个新的度量指标来衡量这些偏差:代表性偏差分数(RBS)和亲和力偏差分数(ABS),并提出了创意导向生成套件(CoGS)来检测这些偏差。同时,论文揭示了主要LLMs存在显著的代表性偏差,而且这些偏差偏向于白人、异性恋和男性。此外,研究还发现每个模型都有自己的评估偏好,类似于“偏见指纹”,这种趋势也存在于人类评估者中,突显了人类和机器偏见感知之间的复杂相互作用。
- 其它亮点论文设计了开放式任务,如短篇小说写作和诗歌创作,用定制的评分标准检测这些偏差,并揭示了LLMs中存在的代表性偏差和亲和力偏差。此外,研究还发现每个模型都有自己的评估偏好,类似于“偏见指纹”,这种趋势也存在于人类评估者中。
- 最近的相关研究包括:《大规模语言模型存在的问题》、《社会偏见在自然语言处理中的影响》等。
沙发等你来抢
去评论
评论
沙发等你来抢