Ensemble of pre-trained language models and data augmentation for hate speech detection from Arabic tweets

2024年07月02日
  • 简介
    今天,阿拉伯推文中的仇恨言论分类引起了多位研究人员的关注。许多系统和技术已经被开发出来解决这个分类任务。然而,在这个背景下面临的两个主要挑战是性能有限和数据不平衡的问题。在这项研究中,我们提出了一种新的方法,利用先前手动标记的集成学习和半监督学习。我们对基准数据集进行了实验,将阿拉伯推文分类为5个不同的类别:非仇恨、一般仇恨、种族、宗教或性别歧视。实验结果表明:(1)基于预训练语言模型的集成学习优于现有相关工作;(2)我们提出的数据增强改善了从阿拉伯推文中检测仇恨言论的准确性结果,并优于现有相关工作。我们的主要贡献是在阿拉伯语仇恨言论检测方面取得了令人鼓舞的结果。
  • 图表
  • 解决问题
    本文旨在解决阿拉伯推文中仇恨言论分类的问题,其中主要的挑战是性能有限和数据不平衡。
  • 关键思路
    本文提出了一种新颖的方法,利用基于先前手动标记的集成学习和半监督学习。通过使用预训练的语言模型,集成学习的性能优于现有相关工作。此外,作者提出的数据增强方案提高了阿拉伯语推文中仇恨言论检测的准确性结果,并超过了现有相关工作。
  • 其它亮点
    本文通过实验设计和数据集使用展示了令人鼓舞的结果,并提供了开源代码。值得进一步研究的是,如何在其他语言中应用该方法以及如何进一步提高模型的性能。
  • 相关研究
    最近的相关研究主要涉及阿拉伯语言中的仇恨言论分类。例如:1. Hate Speech Detection in Arabic Social Media Using Machine Learning Techniques;2. A Survey on Hate Speech Detection using Natural Language Processing Techniques。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论