Using LLMs to discover emerging coded antisemitic hate-speech in extremist social media

2024年01月19日
  • 简介
    在线仇恨言论的泛滥为社交媒体平台带来了难题。其中一个特别的挑战涉及到使用编码语言的团体,既想为其用户创造归属感,又想逃避检测。编码语言的使用快速演变,随时间变化。本文提出了一种检测新出现的带有仇恨色彩编码术语的方法。该方法在在线反犹太主义话语背景下进行了测试。该方法考虑到极端用户经常使用的社交媒体平台上的帖子。使用与先前已知的针对犹太人的仇恨言论相关的种子表达式来抓取这些帖子。该方法首先通过识别每个帖子最具代表性的表达式并计算其在整个语料库中的频率来开始。它过滤掉语法不连贯的表达式以及先前遇到过的表达式,以便集中关注新出现的良好形式的术语。接下来,使用经过微调的大型语言模型对其与已知的反犹太主义术语的语义相似性进行评估,并过滤掉与已知的仇恨表达相距太远的表达式。然后,移除包含与犹太人话题明显相关的新出现的反犹太主义表达式,以返回仅编码的仇恨表达式。
  • 图表
  • 解决问题
    论文旨在提出一种检测新兴编码仇恨术语的方法,以解决社交媒体平台上在线仇恨言论的问题。
  • 关键思路
    该方法使用种子表达式来筛选社交媒体平台上的帖子,然后使用大型语言模型对其进行语义相似性评估,最终过滤出仅包含编码仇恨表达的帖子。
  • 其它亮点
    论文使用了在线反犹太主义话语作为案例,设计了一种新的方法来检测新兴编码仇恨术语,并且在实验中取得了不错的效果。论文还提供了数据集和代码的开源,方便其他研究者进行进一步的研究。
  • 相关研究
    最近的相关研究包括《基于深度学习的社交媒体仇恨言论检测》、《使用词向量和卷积神经网络的在线仇恨言论检测》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论