Investigating Annotator Bias in Large Language Models for Hate Speech Detection

2024年06月17日
  • 简介
    数据标注是将描述性标签分配给原始数据的实践,对于优化机器学习模型的性能至关重要。然而,这是一个资源密集型的过程,易受标注者引入的偏见影响。像ChatGPT这样的复杂大型语言模型的出现为现代化和简化这个复杂的过程提供了独特的机会。虽然现有的研究广泛评估了LLMs的功效,但作为标注者,本文深入探讨了LLMs中存在的偏见,特别是在标注仇恨言论数据时的GPT 3.5和GPT 4o。我们的研究有助于理解四个关键类别中的偏见:性别、种族、宗教和残疾。针对这些类别中高度脆弱的群体,我们分析了标注者的偏见。此外,我们通过仔细检查标注数据来全面检查可能导致这些偏见的因素。我们引入了我们自定义的仇恨言论检测数据集HateSpeechCorpus来进行这项研究。此外,我们还对ETHOS(Mollas等人,2022)数据集进行了相同的实验,以进行比较分析。本文是一个关键的资源,指导研究人员和从业者利用LLMs进行数据标注的潜力,从而促进这个关键领域的进步。HateSpeechCorpus数据集可在以下链接中找到:https://github.com/AmitDasRup123/HateSpeechCorpus
  • 作者讲解
  • 图表
  • 解决问题
    研究LLMs在数据标注中存在的偏见,特别是GPT 3.5和GPT 4o在标注仇恨言论数据时的偏见,以及可能导致这些偏见的因素。
  • 关键思路
    使用自定义的HateSpeechCorpus数据集进行实验,分析LLMs在性别、种族、宗教和残疾等四个关键类别中存在的偏见,并进行全面的数据分析,以便更好地指导研究和实践。
  • 其它亮点
    论文提供了一个自定义的HateSpeechCorpus数据集,用于分析LLMs在数据标注中存在的偏见。实验结果表明,LLMs在标注仇恨言论数据时存在性别、种族、宗教和残疾等方面的偏见。此外,论文还分析了可能导致这些偏见的因素。这篇论文的亮点包括实验设计、数据集的开源以及对未来研究的指导。
  • 相关研究
    最近的相关研究包括Mollas等人的ETHOS数据集,以及对LLMs在数据标注中存在的偏见的其他研究,如Sap等人的“An Empirical Study of Textual Adversarial Attack against Deep Learning-based Hate Speech Detector”和Dixon等人的“Measuring and Mitigating Unintended Bias in Text Classification”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问