Exploring Subjectivity for more Human-Centric Assessment of Social Biases in Large Language Models

2024年05月17日
  • 简介
    评估大型语言模型(LLMs)的一个重要方面是识别潜在的偏见。考虑到大量证据表明LLMs可以在其文本输出中复制人类社会偏见并进一步影响利益相关者,从而可能加剧已经处于边缘化的个人和社区的伤害,这一点尤其重要。因此,最近在偏见检测方面的努力投资于自动化基准和客观指标,例如准确性(即将LLMs输出与预定义的真实情况进行比较)。尽管如此,社会偏见可能是微妙的,往往是主观的和依赖于上下文的,其中情况需要解释,没有真实情况。虽然这些情况对于自动化评估系统来说可能很难识别,但人类评估员可能会注意到这些微妙之处。在本文中,我们讨论了人类评估和主观解释在识别LLMs中的偏见时增强自动化过程的作用,作为一种以人为中心的方法来评估这些模型。
  • 图表
  • 解决问题
    在评估大型语言模型(LLMs)时,如何识别潜在的偏见是一个重要的问题。本文旨在讨论人类评估和主观解释在识别LLMs中的偏见方面的作用,以增强自动化流程。
  • 关键思路
    本文提出了一种以人为中心的方法,将人类评估与自动化评估相结合,以更全面地识别LLMs中的偏见。
  • 其它亮点
    本文提出的方法可以应用于不同类型的LLMs,包括文本分类、生成和翻译模型。研究人员通过对两个数据集进行实验验证了该方法的有效性。本文还讨论了LLMs中偏见的来源和影响,并提出了未来研究的方向。
  • 相关研究
    最近的相关研究包括FairSeq、BERT和GPT等模型的公平性评估,以及使用不同技术和方法来检测和减少LLMs中的偏见的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论