- 简介在线有害言论的泛滥是一个严重的问题,对人口群体构成威胁。明确的有害言论包含冒犯性的词汇信号,隐含的有害言论则包含编码或间接的语言。因此,模型不仅需要检测隐含的有害言论,还需要解释其有害性。这需要一个统一的框架,能够有效地检测和解释隐含的有害言论。以前的工作主要将有害言论检测和解释的任务制定为文本生成问题。然而,使用这种策略训练的模型容易受到后续错误传播问题的影响。此外,我们的实验表明,这种模型的检测结果远低于那些仅关注检测任务的模型。为了弥合这些差距,我们引入了ToXCL,一个用于检测和解释隐含有害言论的统一框架。我们的模型包括三个模块:(i)目标群体生成器,用于生成给定帖子的目标人口群体;(ii)编码器-解码器模型,其中编码器专注于检测隐含的有害言论,并通过知识蒸馏得到了(iii)教师分类器的支持,解码器生成必要的解释。ToXCL实现了新的最先进的有效性,并显著优于基线。
- 图表
- 解决问题本论文旨在解决在线有毒言论的问题,特别是隐含有毒言论的检测和解释。这是否是一个新问题?
- 关键思路ToXCL是一个统一的框架,用于检测和解释隐含有毒言论。模型由三个模块组成:目标群体生成器、编码器-解码器模型和教师分类器。通过知识蒸馏,教师分类器可以提高编码器的检测性能,并且解码器可以生成必要的解释。
- 其它亮点ToXCL达到了新的最先进的效果,并显著优于基线。实验表明,ToXCL可以有效地检测和解释隐含有毒言论。论文还提供了数据集和开源代码,这些都是值得关注的亮点。
- 在最近的相关研究中,也有一些关于检测和解释有毒言论的工作,如《Detecting and Explaining Toxic Comments using Deep Learning》和《Explainable Toxicity Detection in Online User Content》。
沙发等你来抢
去评论
评论
沙发等你来抢