CMU & MILA & 谷歌 | 三家巨头发布史上最干文本增强总结

论文题目: A Survey of Data Augmentation Approaches for NLP
论文链接: https://arxiv.org/pdf/2105.03075
GitHub: https://github.com/styfeng/DataAug4NLP

一直以来，数据都是推动深度神经网络这个人工智能引擎不可或缺的燃料；然而人工收集足量而优质的数据从来不是一件“便宜”的事，数据增强便是一座富有价值的矿山。
在CV中，翻转，裁剪，加噪声等方法被广泛应用且获得了显著的效果。但在NLP领域，由于语言的离散性，如何获得保持文本原意的新数据就显得不那么简单了。大型预训练模型的成功为我们带来了曙光，推动了许多低资源领域或是新任务的研究，然而微调大型模型需要大量数据，如何自动获得高质量数据在最近的研究中显得尤为重要。
Google，CMU，Mila等研究者合作，对当前NLP领域的数据增强进行了总结。被收录到ACL 21 Findings。
本文将帮你总结：NLP数据增强的难点和理解；常见方法；应用场景；和不同下游任务中的常见方法。