- 简介最近,越南语中仇恨言论检测(HSD)方面的进展取得了显著进展,主要归因于基于BERT架构的变形器预训练语言模型的出现。然而,专门的微调模型的必要性导致了开发多任务HSD系统的复杂性和分散性。此外,大多数当前的方法都侧重于微调通用的预训练模型,主要是在正式文本数据集(如维基百科)上进行训练,这可能无法准确捕捉在线平台上的人类行为。在这项研究中,我们介绍了ViHateT5,这是一个基于T5的模型,预先训练了我们提出的大规模领域特定数据集VOZ-HSD。通过利用文本到文本架构的威力,ViHateT5可以使用统一模型解决多个任务,并在越南所有标准HSD基准测试中实现最先进的性能。我们的实验还强调了预训练数据中标签分布对模型有效性的重要性。我们公开提供了实验材料,包括VOZ-HSD数据集、预训练检查点、统一的HSD多任务ViHateT5模型以及相关的GitHub源代码,供研究目的使用。
-
- 图表
- 解决问题提出一种基于T5的模型ViHateT5,用于解决越南语中的仇恨言论检测问题。论文试图解决如何开发一个多任务的仇恨言论检测系统的问题,并且提出了一种基于领域特定数据集的预训练方法。
- 关键思路ViHateT5是一种基于T5的模型,可以在一个统一的模型中处理多个任务,并在越南语的标准仇恨言论检测基准测试中实现最先进的性能。使用领域特定数据集进行预训练可以提高模型的效果。
- 其它亮点论文提出了一种基于T5的多任务模型ViHateT5,使用领域特定数据集进行预训练。实验结果表明,ViHateT5在越南语的仇恨言论检测任务上表现出最先进的性能。论文提供了实验材料,包括VOZ-HSD数据集、预训练检查点、统一的HSD多任务ViHateT5模型以及相关源代码在GitHub上公开。
- 最近的相关研究包括使用BERT架构进行越南语仇恨言论检测的研究,如“BERT for Vietnamese Hate Speech Detection”(2020)和“Multilingual and Cross-lingual Hate Speech Detection in Vietnamese”(2021)。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流