作者:Alexandre Alcoforado, Thomas Palmeira Ferraz,等

简介:本文研究基于bert预训练模型面向主题建模的小样本文本分类方法。传统的文本分类方法通常需要大量标记数据,但这很难实现、尤其是在受限制的领域中、以及不太广泛的语言中。标记数据的缺乏导致了“假设自然语言处理中的数据可用性低”的低资源方法的兴起。其中,小样本学习的方法脱颖而出,小样本学习是指在没有任何先前标记数据的情况下学习的分类器,当前获得最佳结果的小样本学习方法均使用了 Transformers 等语言模型,但这其中存在两个问题:执行时间长、无法将长文本作为输入处理。本文提出了:利用无监督聚类步骤在分类任务之前获得压缩数据表示的新模型ZeroBERTo。实验表明 ZeroBERTo 在长输入和更短执行时间方面具有更好的性能、在 FolhaUOL 数据集中的 F1 分数上比 XLM-R 高出约 12%。

 

论文下载:https://arxiv.org/pdf/2201.01337.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除