CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models

2024年07月02日
  • 简介
    随着大型语言模型(LLMs)越来越多地被用于处理各种自然语言处理(NLP)任务,人们也开始担心LLM生成的内容可能会产生负面社会影响。为了评估LLMs表现出的偏见,研究人员最近提出了各种数据集。然而,现有的偏见评估工作往往只关注特定类型的偏见,并采用不一致的评估指标,导致难以比较不同数据集和LLMs之间的差异。为了解决这些限制,我们收集了多种数据集,旨在评估LLMs的偏见,并进一步提出了CEB,即组合评估基准,涵盖了不同社会群体和任务中的不同类型偏见。CEB的策划基于我们新提出的组合分类法,从偏见类型、社会群体和任务三个维度描述了每个数据集。通过结合这三个维度,我们为LLMs的偏见开发了全面的评估策略。我们的实验表明,偏见水平在这些维度上有所不同,从而为特定偏见缓解方法的开发提供了指导。
  • 解决问题
    本文旨在解决大型语言模型(LLM)所产生的偏见问题,并提出了CEB评估框架,以覆盖不同社会群体和任务中的不同偏见类型。
  • 关键思路
    本文提出了一种新的组合分类法,将数据集从偏见类型、社会群体和任务三个维度进行分类,以开发出全面的LLM偏见评估策略。
  • 其它亮点
    本文提出了CEB评估框架,包括新的组合分类法,以及多个面向不同偏见类型和社会群体的数据集。实验结果表明,LLM偏见的水平在不同维度上存在差异,为针对性的偏见缓解方法提供了指导。
  • 相关研究
    最近的相关研究包括FairTest、CrowS-Pairs、StereoSet等评估框架,以及针对特定偏见类型的数据集,如Stereoset、Toxicity等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论