ViHateT5: Enhancing Hate Speech Detection in Vietnamese With A Unified Text-to-Text Transformer Model

向作者提问

NEW

简介

最近，越南语中仇恨言论检测（HSD）方面的进展取得了显著进展，主要归因于基于BERT架构的变形器预训练语言模型的出现。然而，专门的微调模型的必要性导致了开发多任务HSD系统的复杂性和分散性。此外，大多数当前的方法都侧重于微调通用的预训练模型，主要是在正式文本数据集（如维基百科）上进行训练，这可能无法准确捕捉在线平台上的人类行为。在这项研究中，我们介绍了ViHateT5，这是一个基于T5的模型，预先训练了我们提出的大规模领域特定数据集VOZ-HSD。通过利用文本到文本架构的威力，ViHateT5可以使用统一模型解决多个任务，并在越南所有标准HSD基准测试中实现最先进的性能。我们的实验还强调了预训练数据中标签分布对模型有效性的重要性。我们公开提供了实验材料，包括VOZ-HSD数据集、预训练检查点、统一的HSD多任务ViHateT5模型以及相关的GitHub源代码，供研究目的使用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提出一种基于T5的模型ViHateT5，用于解决越南语中的仇恨言论检测问题。论文试图解决如何开发一个多任务的仇恨言论检测系统的问题，并且提出了一种基于领域特定数据集的预训练方法。
关键思路

ViHateT5是一种基于T5的模型，可以在一个统一的模型中处理多个任务，并在越南语的标准仇恨言论检测基准测试中实现最先进的性能。使用领域特定数据集进行预训练可以提高模型的效果。
其它亮点

论文提出了一种基于T5的多任务模型ViHateT5，使用领域特定数据集进行预训练。实验结果表明，ViHateT5在越南语的仇恨言论检测任务上表现出最先进的性能。论文提供了实验材料，包括VOZ-HSD数据集、预训练检查点、统一的HSD多任务ViHateT5模型以及相关源代码在GitHub上公开。
相关研究

最近的相关研究包括使用BERT架构进行越南语仇恨言论检测的研究，如“BERT for Vietnamese Hate Speech Detection”（2020）和“Multilingual and Cross-lingual Hate Speech Detection in Vietnamese”（2021）。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问