作者:Tomer Wullach, Amir Adler, Einat Minkov

 

简介:本文通过GPT生成仇恨语音检测数据、以促进仇恨检测器微调的泛化能力。自动仇恨语音检测由于缺少标记数据集而受到阻碍,导致泛化能力差。作者采用预训练语言模型(LMs)来缓解这个数据瓶颈。作者利用GPT LM从可用的标记示例生成大量合成仇恨语音序列,并利用生成的数据微调大型预训练LMs进行仇恨检测。使用BERT、RoBERTa和ALBERT模型的实验研究表明,这种方法在数据分布内和数据分布间显著且一致地提高了泛化能力。事实上,作者发现生成相关的标记仇恨语音序列:比使用域外(有时也在域内)的人类标记示例的效果更佳。

论文下载:https://arxiv.org/pdf/2109.00591

HUB地址:https://hub.baai.ac.cn/view/9965

内容中包含的图片若涉及版权问题,请及时与我们联系删除