HCDIR: End-to-end Hate Context Detection, and Intensity Reduction model for online comments

2023年12月20日
  • 简介
    警告:本文包含一些人可能会觉得冒犯的语言。 在社交媒体上检测和减少令人憎恶、滥用和冒犯性评论是一项关键而具有挑战性的任务。此外,很少有研究旨在减轻仇恨言论的强度。虽然研究表明,上下文级语义对于检测令人憎恶的评论至关重要,但由于存在丰富的数据集,大多数研究集中在英语上。相反,低资源语言(如印度语言)因数据集有限而鲜有研究。与仇恨言论检测相反,高资源和低资源语言中仇恨强度的减少仍未得到探索。在本文中,我们提出了一种新的端到端模型HCDIR,用于社交媒体帖子中的仇恨语境检测和仇恨强度降低。首先,我们微调了几个预训练的语言模型来检测令人憎恶的评论,以确定表现最佳的令人憎恶的评论检测模型。然后,我们确定了上下文中的令人憎恶的词语。通过最先进的可解释学习模型Integrated Gradient(IG)来证明识别这些令人憎恶的词语是合理的。最后,我们采用了Masked Language Modeling(MLM)模型来捕捉领域特定的细微差别,以减少仇恨强度。我们屏蔽了被识别为令人憎恶的评论中50%的令人憎恶的词语,并预测这些屏蔽术语的替代词,以生成令人信服的句子。我们更喜欢从可行的句子中选择原始令人憎恶的评论的最佳替代方案。我们在几个最近的数据集上进行了广泛的实验,使用基于自动度量的评估(BERTScore)和彻底的人类评估。为了增强人类评估的准确性,我们组织了一组具有不同专业知识的三个人类标注员。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决社交媒体上仇恨言论的检测和减弱问题,特别是针对印度语等低资源语言的情况。同时,本文还尝试探索仇恨强度的降低方案。
  • 关键思路
    本文提出了一种新的端到端模型HCDIR,用于社交媒体帖子中的仇恨上下文检测和仇恨强度降低。该模型使用预训练的语言模型进行仇恨言论检测,并使用可解释的学习模型(Integrated Gradient)识别上下文中的仇恨词汇。最后,使用掩蔽语言建模(Masked Language Modeling)模型捕捉领域特定的细微差别,以降低仇恨强度。
  • 其它亮点
    本文通过对多个最新数据集的实验,使用自动度量评估(BERTScore)和全面的人工评估,证明了HCDIR模型的有效性。此外,为了提高人工评估的准确性,本文还组织了三名具有不同专业知识的人类标注员。值得注意的是,本文的方法不仅适用于高资源语言,还在印度语等低资源语言上进行了验证。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:'Hate Speech Detection and Analysis: A Survey','Deep Learning for Hate Speech Detection in Tweets','A Novel Ensemble Approach to Detect Abusive Language in Social Media'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问