- 简介弱监督文本分类(WSTC),也称为零样本或无数据文本分类,由于它只需要每个类别的有限种子词(标签名称)而不是标记数据,因此在动态和开放的Web环境中分类大量文本具有吸引力。在最近流行的提示预训练语言模型(PLMs)的帮助下,许多研究利用手工制作和/或自动识别的动词来估计类别的可能性,但它们未能区分这些类别指示词的影响,更不用说捕捉它们之间的相关性并根据未标记的语料库实现自适应调整。本文首先提出了一种新颖的基于逻辑表达式的规则知识形式来描述类别的含义,以便让PLM有效地理解每个类别。然后,我们开发了一个基于提示PLM的方法,名为RulePrompt,用于WSTC任务,包括一个规则挖掘模块和一个规则增强的伪标签生成模块,以及一个自监督微调模块,使PLM与此任务对齐。在这个框架内,分配给文本的不准确的伪标签和与类别相关的不精确的逻辑规则相互增强,从而建立了一个自我迭代的知识(规则)获取和利用的封闭循环,种子词作为起点。广泛的实验证实了我们方法的有效性和鲁棒性,显著优于最先进的弱监督方法。更重要的是,我们的方法产生可解释的类别规则,证明了在消除易混淆类别方面的优势。
- 图表
- 解决问题本论文旨在解决弱监督文本分类(WSTC)问题,通过提出一种基于规则的知识表示方法和一个自我迭代的闭环知识获取和利用框架,实现只使用少量种子词汇而无需标记数据的文本分类。
- 关键思路论文提出了一种基于规则的知识表示方法,称为RulePrompt,通过逻辑表达式来表征每个类别的含义,然后使用自我迭代的闭环框架来生成伪标签和规则,最终通过自监督微调来训练预训练语言模型,以实现弱监督文本分类。
- 其它亮点论文的方法在弱监督文本分类任务上表现出了很好的效果,优于当前的弱监督方法。此外,该方法还能够产生可解释的类别规则,有助于消除容易混淆的类别。实验使用了多个数据集进行验证,代码已经开源。
- 在最近的相关研究中,也有一些研究关注于弱监督文本分类问题,如《Zero-shot Learning for Text Classification》和《Dataless Text Classification: A Zero-shot Learning Approach》等。
沙发等你来抢
去评论
评论
沙发等你来抢