ToXCL: A Unified Framework for Toxic Speech Detection and Explanation

2024年03月25日
  • 简介
    在线有害言论的泛滥是一个严重的问题,对人口群体构成威胁。明确的有害言论包含冒犯性的词汇信号,隐含的有害言论则包含编码或间接的语言。因此,模型不仅需要检测隐含的有害言论,还需要解释其有害性。这需要一个统一的框架,能够有效地检测和解释隐含的有害言论。以前的工作主要将有害言论检测和解释的任务制定为文本生成问题。然而,使用这种策略训练的模型容易受到后续错误传播问题的影响。此外,我们的实验表明,这种模型的检测结果远低于那些仅关注检测任务的模型。为了弥合这些差距,我们引入了ToXCL,一个用于检测和解释隐含有害言论的统一框架。我们的模型包括三个模块:(i)目标群体生成器,用于生成给定帖子的目标人口群体;(ii)编码器-解码器模型,其中编码器专注于检测隐含的有害言论,并通过知识蒸馏得到了(iii)教师分类器的支持,解码器生成必要的解释。ToXCL实现了新的最先进的有效性,并显著优于基线。
  • 图表
  • 解决问题
    本论文旨在解决在线有毒言论的问题,特别是隐含有毒言论的检测和解释。这是否是一个新问题?
  • 关键思路
    ToXCL是一个统一的框架,用于检测和解释隐含有毒言论。模型由三个模块组成:目标群体生成器、编码器-解码器模型和教师分类器。通过知识蒸馏,教师分类器可以提高编码器的检测性能,并且解码器可以生成必要的解释。
  • 其它亮点
    ToXCL达到了新的最先进的效果,并显著优于基线。实验表明,ToXCL可以有效地检测和解释隐含有毒言论。论文还提供了数据集和开源代码,这些都是值得关注的亮点。
  • 相关研究
    在最近的相关研究中,也有一些关于检测和解释有毒言论的工作,如《Detecting and Explaining Toxic Comments using Deep Learning》和《Explainable Toxicity Detection in Online User Content》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论