作者:Yufei Wang,Jiayi Zheng,Can Xu ,等
简介:本文重点研究用于小样本 NLP 任务的文本数据增强。现有的数据增强算法要么利用与任务无关的启发式规则(例如,同义词替换),要么使用小型训练集微调通用预训练语言模型(例如,GPT2)以生成新的合成数据。因此,这些方法具有琐碎的任务特定知识,并且仅限于为简单任务中的弱基线生成低质量的合成数据。为了解决这个问题,作者提出了知识混合数据增强模型 (KnowDA):一个经过预训练的编码器-解码器LM使用知识混合训练 (KoMT) 混合各种 NLP 任务。KoMT 是一种训练过程,它将来自各种异构 NLP 任务的输入示例重新格式化为统一的文本到文本格式,并采用不同粒度的去噪目标来学习生成部分或完整样本。在 KoMT 的帮助下,KnowDA 可以从学习到的任务混合中隐含地结合所需的特定任务知识,并通过几个给定的实例快速掌握目标任务的内在合成规律。据作者所知,作者是第一次尝试在数据增强的多任务协同训练中将任务数量扩展到 100+。大量实验表明: i) KnowDA 在 FewGLUE 基准测试中成功地大幅提高了 Albert 和 Deberta 的性能,优于以前最先进的数据增强基线;ii) KnowDA 还可以提高小样本 NER 任务的模型性能 。
论文下载:https://arxiv.org/pdf/2206.10265.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢