Cross-Platform Hate Speech Detection with Weakly Supervised Causal Disentanglement

2024年04月17日
  • 简介
    内容审核面临着一个艰巨的任务,因为社交媒体传播仇恨言论的能力与其促进全球互联的角色形成了对比。随着俚语和仇恨言论的快速演变,传统深度学习对在线对话流动性的适应性仍然有限。作为回应,因果启发式分离已经显示出很大的潜力,通过将平台特定的奇异性与通用的仇恨指标分离开来。然而,它依赖于可用的基本真实目标标签来辨别这些细微差别,面临着实际障碍,因为平台不断演变和仇恨言论的可变性。本研究利用基于置信度的重新加权和对比正则化,提出了HATE WATCH,一种弱监督因果分离框架,它规避了需要明确目标标签的需要,并有效地将输入特征分解为仇恨的不变表示。通过在两个带有目标标签和两个没有目标标签的平台上进行实证验证,HATE WATCH成为跨平台仇恨言论检测的一种新方法,具有优异的性能。HATE WATCH推进了可扩展的内容审核技术,以开发更安全的在线社区。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:本论文旨在解决社交媒体上仇恨言论的内容审核问题,其中传统深度学习技术的局限性在于无法适应快速演化的网络对话语境。
  • 关键思路
    关键思路:本文提出了一种新的弱监督因果分离框架HATE WATCH,通过置信度加权和对比正则化的方法,无需明确的目标标签即可有效地将输入特征分离成仇恨言论的不变表示。
  • 其它亮点
    其他亮点:本文的实验结果表明,HATE WATCH在跨平台仇恨言论检测方面具有优越性能,为开发更安全的在线社区提供了可扩展的内容审核技术。本文使用了四个平台的数据集进行实验验证,其中两个有目标标签,两个没有。
  • 相关研究
    相关研究:近期的相关研究包括:1. "Automated Hate Speech Detection and the Problem of Offensive Language";2. "A Survey on Automatic Detection of Hate Speech in Text";3. "Hate Speech Detection: A Solved Problem? The Challenging Case of Long Tail on Twitter"。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问