Explainability and Hate Speech: Structured Explanations Make Social Media Moderators Faster

简介

内容审核员在保持社交媒体上的对话健康方面发挥着关键作用。虽然他们需要审核的大量内容成为审核流程的瓶颈，但目前还没有研究探讨模型如何支持他们做出更快的决策。现在已经有大量的研究探讨如何检测仇恨言论，有时是出于帮助改进内容审核的目的，但使用真实内容审核员的研究却很少见。在这项工作中，我们研究了解释对现实世界审核员速度的影响。我们的实验表明，虽然通用的解释对他们的速度没有影响，而且通常会被忽略，但结构化的解释可以将审核员的决策时间降低7.4%。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

研究如何通过模型来支持社交媒体内容审核员更快地做出决策
关键思路

使用结构化的解释可以降低审核员的决策时间
其它亮点

实验结果表明，结构化的解释可以降低审核员的决策时间7.4%。
相关研究

该领域已有许多关于检测仇恨言论的研究，但使用真实的内容审核员的研究很少。