标题:达姆施塔特工业大学|A Survey on Data Augmentation for Text Classification(文本分类数据增强综述)

简介:数据增强是通过转换为机器学习人工创建训练数据,是机器学习学科中一个广泛研究的研究领域。虽然它对于提高模型的泛化能力很有用,但它也可以解决许多其他挑战和问题,从克服有限数量的训练数据到规范目标到限制数据量用于保护隐私。基于对数据增强的目标和应用的精确描述以及现有的分类法作品,该调查涉及用于文本分类的数据增强方法,旨在实现简洁和研究人员和从业人员的综合概述。根据分类法,我们将100多种方法分为12不同的分组,并提供最先进的参考资料,阐述哪些方法非常有前途。最后,研究给出了可能构成未来工作基石的观点。

论文下载:https://arxiv.org/ftp/arxiv/papers/2107/2107.03158.pdf

图1

图2

图3

内容中包含的图片若涉及版权问题,请及时与我们联系删除