CoDa: Constrained Generation based Data Augmentation for Low-Resource NLP

简介

我们提出了CoDa（基于约束生成的数据增强），这是一种可控、有效且无需训练的低资源（数据稀缺）NLP数据增强技术。我们的方法是基于使用现成的指令跟随大型语言模型（LLM）生成满足一组约束条件的文本。具体来说，我们从低资源数据集中的每个实例中提取一组简单的约束条件，并用语言形式提示LLM生成新颖而多样化的训练实例。我们的研究结果表明，遵循下游数据集中简单约束条件的合成数据是高度有效的增强方法，而CoDa可以在不使用复杂算法进行微调，从而使模型偏向少量训练实例的情况下实现这一点。此外，CoDa是第一个为用户提供显式控制增强生成过程的框架，从而也可以轻松适应多个领域。我们在涵盖3个任务和3个低资源设置的11个数据集上展示了CoDa的有效性。CoDa在定性和定量方面均优于我们的基线方法，改进了0.12％-7.19％。代码可在此处获得：https://github.com/Sreyan88/CoDa
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

CoDa论文旨在提出一种数据增强方法，以解决低资源NLP中的数据稀缺问题。
关键思路

CoDa的关键思路是通过提示大型语言模型生成满足一组简单约束条件的文本，从而生成新的多样化的训练实例。
其它亮点

CoDa是一种可控、高效、无需训练的数据增强技术，能够在11个数据集上取得0.12%-7.19%的性能提升。该方法不需要复杂的解码技术或复杂算法的微调，也不会使模型偏向于小量的训练实例。CoDa还提供了对增强生成过程的显式控制，易于适应多个领域。
相关研究

在低资源NLP领域中，还有一些相关研究，例如：1.《Unsupervised Data Augmentation for Consistency Training》；2.《EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks》。

CoDa: Constrained Generation based Data Augmentation for Low-Resource NLP

提问交流

提问交流