论文来自EMNLP2021,论文全称为AEDA:AnEasier Data Augmentation Technique for Text Classification,即一种更简单的文本分类数据增强技术。
论文地址:https://arxiv.org/pdf/2108.13230.pdf
代码地址:https://github.com/akkarimi/aeda_nlp
2019年的EDA(Easy Data Augmentation Techniques for Boosting Performance on TextClassification Tasks)论文发表于ICLR 2019,提出了四种简单的数据增强操作,包括:同义词替换(通过同义词表将句子中的词语进行同义词替换)、随机交换(随机交换句子的两个词语,改变语序)、随机插入(在原始句子中随机插入,句子中某一个词的同义词)和随机删除(随机删除句子中的词语)。
目前,也有一些其他的数据增强方法,例如:同义词替换不使用词表,而是使用词向量或者预训练语言模型;通过在在文本中插入一些符合或者词语,来增加噪声;将句子通过翻译器翻译成另外一种语言再翻译回来的回译手段等。
该论文所提出的AEDA方法,主要是在原始文本中随机插入一些标点符号,属于增加噪声的一种,主要与EDA论文对标,突出“简单”二字。注意:该方法仅适用于文本分类任务。
Q:AEDA比EDA效果好的理论基础是什么?
A:作者认为,EDA方法,无论是同义词替换,还是随机替换、随机插入、随机删除,都改变了原始文本的序列信息;而AEDA方法,只是插入标点符号,对于原始数据的序列信息修改不明显。个人理解,通过词语修改的方法,与原始语义改变可以更加负面;而仅插入一些标点符号,虽然增加了噪声,但是原始文本的语序并没有改变。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢