数据作为深度学习的驱动力,对于模型的训练至关重要。充足的训练数据不仅可以缓解模型在训练时的过拟合问题,而且可以进一步扩大参数搜索空间,帮助模型进一步朝着全局最优解优化。然而,在许多领域或任务中,获取到充足训练样本的难度和代价非常高。因此,数据增广成为一种常用的增加训练样本的手段。本文对目前深度学习中的图像数据增广方法进行研究综述,梳理了目前深度学习领域为缓解模型过拟合问题而提出的各类数据增广方法,按照方法本质原理的不同,将其分为单数据变形、多数据混合、学习数据分布和学习增广策略等4类方法,并以图像数据为主要研究对象,对各类算法进一步按照核心思想进行细分,并对方法的原理、适用场景和优缺点进行比较和分析,帮助研究者根据数据的特点选用合适的数据增广方法,为后续国内外研究者应用和发展研究数据增广方法提供基础。针对图像的数据增广方法,单数据变形方法主要可以分为几何变换、色域变换、清晰度变换、噪声注入和局部擦除等5种;多数据混合可按照图像维度的混合和特征空间下的混合进行划分;学习数据分布的方法主要基于生成对抗网络和图像风格迁移的应用进行划分;学习增广策略的典型方法则可以按照基于元学习和基于强化学习进行分类。目前,数据增广已然成为推进深度学习在各领域应用的一项重要技术,可以很有效地缓解训练数据不足带来的深度学习模型过拟合的问题,进一步提高模型的精度。在实际应用中可根据数据和任务的特点选择和组合最合适的方法,形成一套有效的数据增广方案,进而为深度学习方法的应用提供更强的动力。在未来,根据数据和任务基于强化学习探索最优的组合策略,基于元学习自适应地学习最优数据变形和混合方式,基于生成对抗网络进一步拟合真实数据分布以采样高质量的未知数据,基于风格迁移探索多模态数据互相转换的应用,这些研究方向十分值得探索并且具有广阔的发展前景。
http://www.cjig.cn/jig/ch/reader/createpdf.aspx?fileno=20210302&flag=1&yearid=2021&quarterid=3
深度学习(LeCun 等,2015),得益于深度的网络 结构、强大的计算力和海量的数据,为诸多领域的发 展带来了巨大的促进作用。特别是卷积神经网络 (convolutional neural network, CNN) 在计算机视觉 领域中的图像分类、物体检测和图像分割等任务上 展现出强大的性能。通常人们在构造和使用基于深 度学习的方法时,通过设计合适的神经网络结构,设 定以任务为导向的合理的目标函数,利用大量有标 注的训练数据计算目标损失,通过梯度下降的方法 迭代优化模型参数,最终求得一个类似于高维非线 性映射函数的“端到端”深度神经网络模型。
数据,作为深度学习的驱动力,对模型的训练至 关重要。在给定网络结构和有限先验知识的条件 下,在训练中为模型引入更多的新数据,意味着扩大 其参数搜索空间,可以帮助模型进一步朝着全局最 优解优化,进而提高模型的性能。而另一方面,在许 多研究领域,受限于数据获取难度大、标注成本高等 原因,往往难以获得充足的训练数据,这样训练得到 的深度学习模型往往存在过拟合的问题,进而导致 模型泛化能力差、测试精度不高等,难以满足应用需 求。而通过对数据进行变换处理生成“新数据”,则 成为扩大样本集、提高模型泛化能力的一项重要手 段,并且广泛应用于各个领域对于深度学习模型的 训练过程中。
数据增广,又称数据增强( data augmentation), 是一种增加有限数据的数量和多样性的策略,旨在 从有限的数据中提炼出更多有用的信息,产生等价 于更多数据的价值。针对模型过拟合的问题,与预 训练 ( pre-training ) ( Erhan 等, 2010 )、 随 机 失 活 (dropout) ( Srivastava 等, 2014 )、 批 标 准 化 ( batch normalization) ( Ioffe 和 Szegedy, 2015 )、 迁 移 学 习 (transfer learning) ( Weiss 等,2016) 和小样本学习 (few-shot learning) ( Sung 等,2018) 等处理方法不 同,数据增广方法试图从过拟合问题的根源———训 练样本不足,去解决该问题。
数据增广方法在广义上可以按照产生新数据的 方式分为数据变形( data warping) 和数据过采样 (oversampling)。由于操作简单,同时数据量上的需 求远比现在要低得多,早期对数据增广的应用多是数据变形类方法。对于图像数据,基本的图像变换 操作都属于数据变形类增广方法,在应用到深度学 习中的工作最早可见于 LeNet-5(LeCun 等,1998)对 图像进行仿射变换。随着卷积神经网络的发展,各 种经典的网络模型在其图像分类任务中都或多或少 地采用了数据变形类增广方法以防止过拟合问题。例如,AlexNet(Krizhevsky 等,2017) 使用了裁剪、水 平镜像、基于主成分分析(principal component analysis, PCA)的色彩增强对训练数据进行增广;VGG 网 络(visual geometry group network, VGGNet) ( Simonyan 和 Zisserman,2014)使用了多尺度缩放和裁剪的 方式进行数据增广;GoogLeNet(Szegedy 等,2015)采 用了 AlexNet 中的裁剪加镜像的方法并且进一步拓 展,在测试时进行数据增广,将一幅图像增广到 144 个样本,并对所有样本的 Softmax 概率取平均值 以得到最终分类结果;类似地,在后来的残差网络 (residual network, ResNet) (He 等,2016) 和密集连 接卷 积 网 络 ( densely connected convolutional networks, DenseNet)(Huang 等,2017) 中,也都采用了 最简单的几何变换对图像进行数据增广,并且也都 取得了显著的精度提升。随着数据增广的有效性在 越来越多的工作中得到验证,许多研究者开始了对 新的数据增广方法的研究。
除了采用图像处理中基本的图像变换和图像增 强操作,受 dropout 主动删除一部分神经元信息以解 决过拟合问题的启发,随机删除图像中的局部信息 来进行数据增广的方法被提出(Devries 和 Taylor, 2017b;Zhong 等,2017)。除了在单幅图像上进行变 换,采用多幅图像进行信息混合,其中最为代表性的 方法有 SamplePairing ( Inoue, 2018 )、 mixup ( Zhang 等,2017 )、 SMOTE ( synthetic minority over-sampling technique)(Devries 和 Taylor,2017a)等,这类方法本 质上属于数据过采样。之后,随着机器学习的进一 步发展,诞生了对抗学习、元学习、强化学习等新的 智能化概念。由于生成对抗网络可以生成十分逼真 的图像,一种很自然的想法便是借助其产生新的图 像样本进而扩充训练数据集,这种想法的有效性在 不同的领域和任务中都得到了验证( Frid-Adar 等, 2018)。而借助元学习和强化学习的思想,可以训 练一个模型去自适应地选用最优的数据增广策略, 来实现模型 性 能 提 升 的 最 大 化, 如 AutoAugment (Cubuk 等, 2019a ) 和 RandAugment ( Cubuk 等,2019b),为未来数据增广方法的发展定义了新的研 究方向,同时也为智能化选择数据增广策略奠定了 新的基础。
对数据增广方法比较全面的综述是 Shorten 和 Khoshgoftaar 于 2019 年 发 表 的 文 章 ( Shorten 和 Khoshgoftaar,2019)。该综述从方法的复杂度角度 考虑把数据增广方法分成“基本图像操作”和“深度 学习方法”两大类,详述了每大类包含的各种方法 及其应用效果。本文从另外的角度,即从数据增广 的生成方式综述,将数据扩增方法分为单数据变形、 多数据混合、学习数据分布规律生成新数据和学习 增广策略等 4 类方法。以上顺序也在一定程度上反 映了数据增广方法的发展历程。如果与 Shorten 和 Khoshgoftaar(2019) 的成果对照,就图像数据而言, 基于数据变形和数据混合的方法可看做是基本的图 像变换操作,而学习数据分布和学习增广策略的方 法主要依赖于机器学习中的生成式方法和策略搜索 方法,大多依赖于深度学习方法。在本文中,为避免 针对图像的“数据增强”与数字图像处理领域中“图 像增强(image enhancement)”的混淆,使用“数据增 广”表示机器学习领域内增加样本数量、扩大训练 集的这类方法。本文对目前对基于深度学习的图像 数据增广方法进行整理,按照各类方法的本质原理 进行分类,对各类算法的原理、适用场景和优缺点进 行分析,最后对数据增广方法的研究进行总结与 展望。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢