The Unappreciated Role of Intent in Algorithmic Moderation of Social Media Content

简介

随着社交媒体成为全球主要的交流方式，虚构内容的崛起威胁到了公民讨论的根基。鉴于这个问题的重要性，已经有大量的研究致力于开发能够检测各种在线虚构内容的语言模型，例如仇恨言论、网络欺凌等。然而，平台政策通常将作者的意图作为内容审核的标准，而当前的检测模型通常缺乏捕捉意图的努力，这存在显著的脱节。本文研究了意图在内容审核系统中的作用。我们回顾了最先进的检测模型和在线虚构内容的基准训练数据集，以评估它们对意图的认识和捕捉能力。我们提出了策略性的变革，以改善自动检测和审核系统的设计和开发，使其更符合虚构内容的伦理和政策概念。
图表
解决问题

本论文旨在探讨语言模型在检测在线虐待内容时如何捕捉作者意图，以便更好地与平台政策对齐。
关键思路

论文提出了一种基于意图的在线虐待内容检测模型，该模型可以更好地识别虐待内容的背后意图。
其它亮点

论文评估了当前在线虐待内容检测模型对于捕捉作者意图的能力，并提出了一种基于意图的检测模型。实验使用了多个数据集，包括已有的和新构建的数据集。论文还提出了一些未来的研究方向，例如如何更好地捕捉多样化的虐待内容和意图。
相关研究

相关研究包括： 1. 'Automated Hate Speech Detection and the Problem of Offensive Language' (Davidson et al., 2017) 2. 'Detecting Hate Speech on Twitter Using a Convolution-GRU Based Deep Neural Network' (Zhang et al., 2018) 3. 'Hateful Symbols or Hateful People? Predictive Features for Hate Speech Detection on Twitter' (Waseem, 2016)

The Unappreciated Role of Intent in Algorithmic Moderation of Social Media Content

评论