- 简介本文介绍了一种编码通讯方式——狗哨,它向特定受众传递第二层含义,常被用于种族和社会经济歧视。狗哨起源于美国政治,但近年来已在社交媒体中盛行,用于逃避仇恨言论检测系统并保持可信否认性。本文提出了一种使用大型语言模型(LLM)进行狗哨词义消歧的方法,并利用这种技术创建了一个数据集,包含16,550个高置信度编码的狗哨示例,这些示例用于正式和非正式通讯。Silent Signals是最大的已消歧狗哨用法数据集,可用于仇恨言论检测、新词汇和政治科学等应用。数据集可在https://huggingface.co/datasets/SALT-NLP/silent_signals找到。
- 图表
- 解决问题本论文旨在通过大型语言模型(LLMs)进行词义消歧,从标准语言中区分出犬哨,以创建一个高置信度的犬哨数据集,以应用于仇恨言论检测、新词汇研究和政治学等领域。
- 关键思路使用大型语言模型(LLMs)对犬哨进行词义消歧,以创建一个高置信度的犬哨数据集。
- 其它亮点本论文提出了一个新的方法来创建犬哨数据集,这是目前最大的犬哨数据集,可用于仇恨言论检测、新词汇研究和政治学等领域。该数据集已经公开发布。实验设计合理,使用了大量的数据集。该方法也可以用于其他语言中的犬哨检测。
- 近年来,犬哨检测已成为研究热点。相关的研究包括:《Detecting Dog Whistles in News Articles with BERT》、《Automated Hate Speech Detection and the Problem of Offensive Language》等。
沙发等你来抢
去评论
评论
沙发等你来抢