A Comprehensive Study on NLP Data Augmentation for Hate Speech Detection: Legacy Methods, BERT, and LLMs

2024年03月30日
  • 简介
    数据增强在NLP领域的兴起是由于需要解决仇恨言论领域、社交媒体词汇的动态性和需要大规模神经网络所需的大量训练数据等挑战。然而,在数据增强中普遍使用的词汇替换引发了关注,因为它可能无意中改变了预期的含义,从而影响了监督机器学习模型的有效性。为了寻求合适的数据增强方法,本研究探讨了既有的传统方法和当代方法,如大型语言模型(LLM),包括在仇恨言论检测中的GPT。此外,我们提出了一种优化利用基于BERT的编码器模型的方法,采用上下文余弦相似度过滤,揭示了先前的同义词替换方法存在的显著局限性。我们的比较分析涵盖了五种流行的增强技术:WordNet和Fast-Text同义词替换、回译、BERT掩码上下文增强和LLM。我们在五个基准数据集上进行的分析表明,传统方法如回译显示出低标签更改率(0.3-1.5%),而基于BERT的上下文同义词替换提供了句子多样性,但标签更改率较高(超过6%)。我们提出的基于BERT的上下文余弦相似度过滤将标签更改显著降至0.05%,证明了其在0.7%更高的F1性能方面的有效性。然而,使用GPT-3增强数据不仅避免了过度拟合,还提高了嵌入空间覆盖率15%和分类F1得分1.4%,比传统方法高0.8%。
  • 图表
  • 解决问题
    探索NLP中数据增强的方法,解决同义词替换可能改变意思的问题,提高监督学习模型的效果。
  • 关键思路
    提出一种优化的BERT-based编码模型,结合上下文余弦相似度过滤,显著减少标签改变率,提高了F1性能。同时,使用GPT-3进行数据增强,避免过拟合,提高分类F1得分。
  • 其它亮点
    使用了五种流行的数据增强技术进行比较分析,提出的BERT-based编码模型在标签改变率和F1性能上表现优秀,使用GPT-3进行数据增强能够避免过拟合,提高分类F1得分。
  • 相关研究
    相关研究包括:Back-translation、WordNet和Fast-Text同义词替换、BERT-mask上下文增强、LLM等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论