GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models

2024年08月22日
  • 简介
    大型语言模型(LLMs)在自然语言生成方面展示了卓越的能力,但也被观察到放大了社会偏见,尤其是与性别有关的偏见。为了解决这个问题,提出了几个基准来评估LLMs中的性别偏见。然而,这些基准往往缺乏实际的灵活性或无意中引入偏见。为了解决这些缺点,我们介绍了GenderCARE,这是一个全面的框架,包括创新的标准、偏见评估、减少技术和评估指标,用于量化和减少LLMs中的性别偏见。首先,我们建立了性别平等基准的先驱标准,涵盖包容性、多样性、可解释性、客观性、鲁棒性和现实性等方面。在这些标准的指导下,我们构建了GenderPair,这是一个新颖的基于配对的基准,旨在全面评估LLMs中的性别偏见。我们的基准提供了标准化和现实的评估,包括以前被忽视的性别群体,如跨性别和非二元性别人士。此外,我们开发了有效的去偏见技术,其中包括反事实数据增强和专门的微调策略,以减少LLMs中的性别偏见,而不影响它们的整体性能。广泛的实验表明,在各种性别偏见基准中有显著的降低,其中在17种不同的LLMs中峰值超过90%,平均超过35%。重要的是,这些降低在主流语言任务中变异很小,保持在2%以下。通过提供现实的评估和量身定制的减少性别偏见,我们希望我们的GenderCARE能够代表迈向在LLMs中实现公平和公正的重要一步。更多细节可在https://github.com/kstanghere/GenderCARE-ccs24上找到。
  • 图表
  • 解决问题
    解决问题:论文试图解决什么问题,或者验证什么假设?这是否是一个新问题?
  • 关键思路
    关键思路:论文中解决问题的方案关键思路是什么?相比当前这个领域的研究状况,这篇论文的思路有什么新意?
  • 其它亮点
    其他亮点:论文提出了GenderCARE框架,包括评估、减少和评估性别偏见的技术,以全面量化和减少LLMs中的性别偏见。作者还提出了GenderPair基准测试,用于评估LLMs中的性别偏见,并开发了有效的去偏见技术。实验结果表明,在17种不同的LLMs上,GenderCARE可以显著降低各种性别偏见基准测试,降幅最高可达90%,平均超过35%。
  • 相关研究
    相关研究:最近的相关研究包括WinoBias和StereoSet等基准测试,以及一些去偏见技术,如Hard-Debias和ReBias。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论