Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales

2024年03月19日
  • 简介
    虽然社交媒体平台是用户进行人际交流和表达观点的突出场所,但社交媒体提供的表面和匿名性可能使用户发表仇恨言论和冒犯性内容。鉴于这些平台的规模之大,需要自动识别和标记仇恨言论的实例。虽然存在几种仇恨言论检测方法,但大多数黑盒方法设计上不具有可解释性或可解释性。为了解决缺乏可解释性的问题,在本文中,我们提出使用最先进的大型语言模型(LLMs)从输入文本中提取理由形式的特征,训练基本的仇恨言论分类器,从而实现设计上的忠实可解释性。我们的框架有效地结合了LLMs的文本理解能力和最先进的仇恨言论分类器的鉴别能力,使这些分类器得以忠实地解释。我们在各种社交媒体仇恨言论数据集上进行了全面评估,证明了:(1)LLM提取的理由的好处,以及(2)即使在训练以确保可解释性后,检测器性能仍然惊人地保持不变。
  • 作者讲解
  • 图表
  • 解决问题
    在社交媒体上,用户可能会发布仇恨言论和攻击性内容,需要自动识别和标记这些内容。然而,大多数黑匣子方法不具备可解释性,因此需要提出一种新的方法。
  • 关键思路
    使用最先进的大型语言模型(LLMs)从输入文本中提取特征,以理解文本,并训练一个基本的仇恨言论分类器。通过这种方法,使分类器具备可解释性。
  • 其它亮点
    该论文提出的方法能够有效地结合LLMs的文本理解能力和现有仇恨言论分类器的判别能力,使分类器具备可解释性。论文在多个社交媒体仇恨言论数据集上进行了全面评估,证明了LLM提取出的原理的好处,并且即使在训练可解释性的情况下,分类器的性能仍然出乎意料地保持得很好。
  • 相关研究
    最近的相关研究包括:1.《基于深度学习的社交媒体仇恨言论检测》2.《使用注意力机制的社交媒体仇恨言论检测》3.《使用半监督学习的社交媒体仇恨言论检测》
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问