EMNLP2021之AEDA：一种更简单的文本分类数据增强技术

论文来自EMNLP2021，论文全称为AEDA：AnEasier Data Augmentation Technique for Text Classification，即一种更简单的文本分类数据增强技术。

论文地址：https://arxiv.org/pdf/2108.13230.pdf

代码地址：https://github.com/akkarimi/aeda_nlp

2019年的EDA（Easy Data Augmentation Techniques for Boosting Performance on TextClassification Tasks）论文发表于ICLR 2019，提出了四种简单的数据增强操作，包括：同义词替换（通过同义词表将句子中的词语进行同义词替换）、随机交换（随机交换句子的两个词语，改变语序）、随机插入（在原始句子中随机插入，句子中某一个词的同义词）和随机删除（随机删除句子中的词语）。

目前，也有一些其他的数据增强方法，例如：同义词替换不使用词表，而是使用词向量或者预训练语言模型；通过在在文本中插入一些符合或者词语，来增加噪声；将句子通过翻译器翻译成另外一种语言再翻译回来的回译手段等。

该论文所提出的AEDA方法，主要是在原始文本中随机插入一些标点符号，属于增加噪声的一种，主要与EDA论文对标，突出“简单”二字。注意：该方法仅适用于文本分类任务。

Q：AEDA比EDA效果好的理论基础是什么？

A：作者认为，EDA方法，无论是同义词替换，还是随机替换、随机插入、随机删除，都改变了原始文本的序列信息；而AEDA方法，只是插入标点符号，对于原始数据的序列信息修改不明显。个人理解，通过词语修改的方法，与原始语义改变可以更加负面；而仅插入一些标点符号，虽然增加了噪声，但是原始文本的语序并没有改变。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

EMNLP2021之AEDA：一种更简单的文本分类数据增强技术

评论列表

评论