- 简介社交媒体上仇恨言论和冒犯性评论的泛滥已经变得越来越普遍,这是由于用户活动导致的。这些评论可能对个人的心理健康和社会行为产生不利影响。虽然在英语领域存在大量数据集,但波斯语语言的等效资源很少。为了填补这一空白,本文介绍了两个冒犯性数据集。第一个数据集包括领域专家提供的注释,而第二个数据集则包括通过网络爬虫获得的大量未标记数据,用于无监督学习。为了确保前一个数据集的质量,进行了严谨的三阶段标注过程,并计算了kappa值以评估标注者之间的一致性。此外,本文在数据集上使用了最先进的语言模型和机器学习算法进行实验,旨在使用当代前沿方法建立数据集的基线。对于三类和两类版本的数据集,使用XLM-RoBERTa分别获得了76.9%和89.9%的F1分数,同时使用了掩码语言建模技术和未使用掩码语言建模技术。
- 图表
- 解决问题本文旨在解决波斯语恶意评论数据集缺乏的问题,提供了两个数据集,一个是由领域专家提供的注释数据集,另一个是通过网络爬虫获得的大量未标记数据集,用于无监督学习。
- 关键思路本文提供了两个波斯语恶意评论数据集,并使用最先进的语言模型和机器学习算法进行实验,建立了数据集的基准,证明了该方法的有效性。
- 其它亮点本文的两个数据集都是在波斯语中,其中第一个数据集经过了三个阶段的标注过程,确保了数据集的质量,实验结果表明,使用XLM-RoBERTa模型可以达到76.9%和89.9%的F1分数。此外,本文还介绍了一些值得关注的实验细节和开源代码。
- 最近的相关研究包括《Persian Sentiment Analysis: A Review》和《A Survey on Hate Speech Detection in Persian Language》等。
沙发等你来抢
去评论
评论
沙发等你来抢