ViHateT5: Enhancing Hate Speech Detection in Vietnamese With A Unified Text-to-Text Transformer Model

2024年05月23日
  • 简介
    最近,越南语中仇恨言论检测(HSD)方面的进展取得了显著进展,主要归因于基于BERT架构的变形器预训练语言模型的出现。然而,专门的微调模型的必要性导致了开发多任务HSD系统的复杂性和分散性。此外,大多数当前的方法都侧重于微调通用的预训练模型,主要是在正式文本数据集(如维基百科)上进行训练,这可能无法准确捕捉在线平台上的人类行为。在这项研究中,我们介绍了ViHateT5,这是一个基于T5的模型,预先训练了我们提出的大规模领域特定数据集VOZ-HSD。通过利用文本到文本架构的威力,ViHateT5可以使用统一模型解决多个任务,并在越南所有标准HSD基准测试中实现最先进的性能。我们的实验还强调了预训练数据中标签分布对模型有效性的重要性。我们公开提供了实验材料,包括VOZ-HSD数据集、预训练检查点、统一的HSD多任务ViHateT5模型以及相关的GitHub源代码,供研究目的使用。
  • 作者讲解
  • 图表
  • 解决问题
    提出一种基于T5的模型ViHateT5,用于解决越南语中的仇恨言论检测问题。论文试图解决如何开发一个多任务的仇恨言论检测系统的问题,并且提出了一种基于领域特定数据集的预训练方法。
  • 关键思路
    ViHateT5是一种基于T5的模型,可以在一个统一的模型中处理多个任务,并在越南语的标准仇恨言论检测基准测试中实现最先进的性能。使用领域特定数据集进行预训练可以提高模型的效果。
  • 其它亮点
    论文提出了一种基于T5的多任务模型ViHateT5,使用领域特定数据集进行预训练。实验结果表明,ViHateT5在越南语的仇恨言论检测任务上表现出最先进的性能。论文提供了实验材料,包括VOZ-HSD数据集、预训练检查点、统一的HSD多任务ViHateT5模型以及相关源代码在GitHub上公开。
  • 相关研究
    最近的相关研究包括使用BERT架构进行越南语仇恨言论检测的研究,如“BERT for Vietnamese Hate Speech Detection”(2020)和“Multilingual and Cross-lingual Hate Speech Detection in Vietnamese”(2021)。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问