Subtle Biases Need Subtler Measures: Dual Metrics for Evaluating Representative and Affinity Bias in Large Language Models

2024年05月23日
  • 简介
    大规模语言模型(LLMs)的研究经常忽略微妙的偏见,虽然这些偏见不太明显,但会显著影响模型输出,使其偏向特定的社会叙事。本研究解决了LLMs中的两种偏见:代表性偏见,即LLMs倾向于生成与某些身份群体经历相似的输出;亲和力偏见,则反映了模型对特定叙事或观点的评价偏好。我们引入了两个新的指标来衡量这些偏见:代表性偏见分数(RBS)和亲和力偏见分数(ABS),并提出了创意导向生成套件(CoGS),这是一组开放式任务,例如短篇小说写作和诗歌创作,旨在使用定制的评分标准来检测这些微妙的偏见。我们的分析揭示了突出的代表性偏见在知名的LLMs中,偏好与白人、异性恋和男性相关的身份。此外,我们对亲和力偏见的调查揭示了每个模型内独特的评价模式,类似于“偏见指纹”。这种趋势也在人类评估者中得到体现,突显了人类和机器偏见感知之间的复杂相互作用。
  • 解决问题
    解决问题:本论文旨在解决LLMs中存在的两种偏见:代表性偏见和亲和力偏见,这些偏见可以导致模型输出特定的社会叙事。这是否是一个新问题?
  • 关键思路
    关键思路:本论文提出了两种新的度量方法:代表性偏见得分(RBS)和亲和力偏见得分(ABS),并提出了一个开放式任务集CoGS,用于检测这些微妙的偏见。分析发现,著名的LLMs存在明显的代表性偏见,偏向于与白人、异性恋和男性相关的身份。此外,我们的亲和力偏见调查揭示了每个模型内独特的评价模式,类似于“偏见指纹”。这种趋势也在人类评估者中看到,突显了人类和机器偏见感知之间的复杂相互作用。相比当前研究状况,这篇论文提出了新的度量方法和任务集,以检测LLMs中的微妙偏见。
  • 其它亮点
    其他亮点:论文提出的度量方法和任务集可以帮助研究人员更好地评估LLMs的偏见,从而避免输出特定的社会叙事。实验使用了多个数据集,包括CoQA、SQuAD和Persona-Chat等。论文还探讨了人类评估者的偏见感知,并提出了一些可能的解决方案。此外,论文还提出了一些未来研究方向,如如何减少LLMs中的偏见,以及如何更好地理解和解释这些模型。
  • 相关研究
    相关研究:最近的相关研究包括Fairness in Machine Learning、Bias in AI等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论