Leveraging Weakly Annotated Data for Hate Speech Detection in Code-Mixed Hinglish: A Feasibility-Driven Transfer Learning Approach with Large Language Models

2024年03月04日
  • 简介
    大型语言模型(LLMs)的出现推动了各种自然语言处理(NLP)任务的基准。但是,训练LLMs需要大量标记的训练数据。此外,数据注释和训练计算成本高且耗时。零和少量样本学习最近已经成为使用大型预训练模型标记数据的可行选项。仇恨言论检测是一个活跃的问题领域,其中使用LLMs已被证明是有益的,特别是在混合编码的低资源语言中。在本研究中,我们编制了一个包含100个YouTube评论的数据集,并对混合编码Hinglish中的粗略和细粒度厌恶进行了弱标记。由于注释过程需要大量劳动力,因此采用了弱标注。然后,采用零样本学习、一次样本学习、少量样本学习和提示方法来为评论分配标签,并将其与人工分配的标签进行比较。在所有方法中,使用双向自回归变换器(BART)大型模型的零样本分类和使用生成式预训练变换器-3(ChatGPT-3)的少量提示方法取得了最佳结果。
  • 图表
  • 解决问题
    使用零样本学习和提示方法进行混合代码低资源语言中的仇恨言论检测
  • 关键思路
    使用大型预训练模型进行零样本和少样本学习,以进行混合代码低资源语言中的仇恨言论检测,其中BART和ChatGPT-3模型表现最佳
  • 其它亮点
    论文编译了一个100个YouTube评论的数据集,并使用弱标注进行分类。实验结果表明,使用BART和ChatGPT-3模型的零样本和少样本学习方法在混合代码低资源语言中的仇恨言论检测中表现最佳。
  • 相关研究
    近期的相关研究包括:1.《使用多任务学习进行跨语言仇恨言论检测》;2.《在社交媒体上使用深度学习进行仇恨言论检测:一个综述》;3.《使用深度学习进行多语言仇恨言论检测:一个综述》
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论