一直以来,数据都是推动深度神经网络这个人工智能引擎不可或缺的燃料;然而人工收集足量而优质的数据从来不是一件“便宜”的事,数据增强便是一座富有价值的矿山。
在CV中,翻转,裁剪,加噪声等方法被广泛应用且获得了显著的效果。但在NLP领域,由于语言的离散性,如何获得保持文本原意的新数据就显得不那么简单了。大型预训练模型的成功为我们带来了曙光,推动了许多低资源领域或是新任务的研究,然而微调大型模型需要大量数据,如何自动获得高质量数据在最近的研究中显得尤为重要。
Google,CMU,Mila等研究者合作,对当前NLP领域的数据增强进行了总结。被收录到ACL 21 Findings。
本文将帮你总结:NLP数据增强的难点和理解;常见方法;应用场景;和不同下游任务中的常见方法。
- 论文题目: A Survey of Data Augmentation Approaches for NLP
- 论文链接: https://arxiv.org/pdf/2105.03075
- GitHub: https://github.com/styfeng/DataAug4NLP
感兴趣的可以继续戳原文。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢