Investigating Annotator Bias in Large Language Models for Hate Speech Detection

2024年06月17日
  • 简介
    数据标注是将描述性标签分配给原始数据的实践,对于优化机器学习模型的性能至关重要。然而,这是一个资源密集型的过程,易受标注者引入的偏见的影响。像ChatGPT这样的复杂的大型语言模型的出现提供了一种现代化和简化这个复杂过程的独特机会。虽然现有的研究广泛评估了LLMs的有效性,但作为标注者,本文深入探讨了GPT 3.5和GPT 40在标注仇恨言论数据时存在的偏见。我们的研究有助于理解四个关键类别中存在的偏见:性别、种族、宗教和残疾。针对这些类别中高度脆弱的群体,我们分析了标注者的偏见。此外,我们通过仔细研究标注数据来对可能导致这些偏见的潜在因素进行了全面的检查。我们引入了我们的自定义仇恨言论检测数据集HateSpeechCorpus来进行这项研究。此外,我们还对ETHOS(Mollas等人,2022)数据集进行了相同的实验,以进行比较分析。本文是一个关键资源,指导研究人员和从业者利用LLMs进行数据标注,从而促进这一关键领域的进展。HateSpeechCorpus数据集可在此处获得:https://github.com/AmitDasRup123/HateSpeechCorpus。
  • 图表
  • 解决问题
    本论文旨在研究大型语言模型(LLMs)在数据注释中存在的偏见,特别是针对GPT 3.5和GPT 40在仇恨言论数据注释中的偏见,并分析注释者的偏见。同时,介绍了自定义的HateSpeechCorpus数据集。
  • 关键思路
    本论文的关键思路是通过研究LLMs在数据注释中的偏见,特别是针对高度脆弱的人群,分析偏见的因素,并提供指导研究人员和从业人员利用LLMs进行数据注释的资源。
  • 其它亮点
    本论文介绍了自定义的HateSpeechCorpus数据集,并在该数据集上进行了实验。同时,还在ETHOS数据集上进行了相同的实验以进行比较分析。该论文为研究人员和从业人员提供了指导,指导他们如何利用LLMs进行数据注释,并促进这一关键领域的发展。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《BERT在情感分析中的应用》、《基于深度学习的文本分类方法综述》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论