ToXCL: A Unified Framework for Toxic Speech Detection and Explanation

简介

在线有害言论的泛滥是一个严重的问题，对人口群体构成威胁。明确的有害言论包含冒犯性的词汇信号，隐含的有害言论则包含编码或间接的语言。因此，模型不仅需要检测隐含的有害言论，还需要解释其有害性。这需要一个统一的框架，能够有效地检测和解释隐含的有害言论。以前的工作主要将有害言论检测和解释的任务制定为文本生成问题。然而，使用这种策略训练的模型容易受到后续错误传播问题的影响。此外，我们的实验表明，这种模型的检测结果远低于那些仅关注检测任务的模型。为了弥合这些差距，我们引入了ToXCL，一个用于检测和解释隐含有害言论的统一框架。我们的模型包括三个模块：（i）目标群体生成器，用于生成给定帖子的目标人口群体；（ii）编码器-解码器模型，其中编码器专注于检测隐含的有害言论，并通过知识蒸馏得到了（iii）教师分类器的支持，解码器生成必要的解释。ToXCL实现了新的最先进的有效性，并显著优于基线。
图表
解决问题

本论文旨在解决在线有毒言论的问题，特别是隐含有毒言论的检测和解释。这是否是一个新问题？
关键思路

ToXCL是一个统一的框架，用于检测和解释隐含有毒言论。模型由三个模块组成：目标群体生成器、编码器-解码器模型和教师分类器。通过知识蒸馏，教师分类器可以提高编码器的检测性能，并且解码器可以生成必要的解释。
其它亮点

ToXCL达到了新的最先进的效果，并显著优于基线。实验表明，ToXCL可以有效地检测和解释隐含有毒言论。论文还提供了数据集和开源代码，这些都是值得关注的亮点。
相关研究

在最近的相关研究中，也有一些关于检测和解释有毒言论的工作，如《Detecting and Explaining Toxic Comments using Deep Learning》和《Explainable Toxicity Detection in Online User Content》。

ToXCL: A Unified Framework for Toxic Speech Detection and Explanation

评论