Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution

2024年05月09日
  • 简介
    许多与计算社会科学和网络内容分析相关的任务涉及基于它们所包含的主张对文本片段进行分类。目前最先进的方法通常涉及在大型注释数据集上微调模型,这些数据集的生产成本很高。鉴于此,我们提出并发布了一种定性且多用途的少样本学习方法,作为任何基于主张的文本分类任务的通用范式。该方法涉及将类别定义为任意复杂的主张分类法,并使用自然语言推理模型获取它们与感兴趣的语料库之间的文本蕴涵关系。然后,通过标注最少量的数据点来提高这些模型的性能,这些数据点是使用已建立的统计启发式概率二分法动态抽样的。我们在三个任务的背景下说明了这种方法:气候变化异议检测、主题/立场分类和抑郁症相关症状检测。这种方法可以与传统的预训练/微调方法相媲美,同时大大减少了数据注释的需求。
  • 图表
  • 解决问题
    论文旨在提出一种少样本学习的方法,用于处理基于声明的文本分类任务,以降低数据标注的成本。
  • 关键思路
    将类别定义为声明的复杂分类体系,并使用自然语言推理模型获得它们与感兴趣的语料库之间的文本蕴含关系。然后通过动态采样少量数据点来提高模型性能。
  • 其它亮点
    该方法在三个任务中进行了实验,包括气候变化否认检测、主题/立场分类和抑郁症症状检测。该方法与传统的预训练/微调方法相媲美,同时大大降低了数据标注的需求。
  • 相关研究
    在相关研究中,最近有一些工作探索了少样本学习在自然语言处理中的应用,如Meta-Learning for Few-Shot Natural Language Processing和Few-Shot Learning for Named Entity Recognition。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论