Distribution-Aware Data Expansion with Diffusion Models

简介

数据集的规模和质量显著影响深度模型的性能。然而，获取大规模注释数据集既费时又昂贵。为了解决这一挑战，数据集扩展技术旨在自动增强数据集，释放深度模型的全部潜力。当前的数据扩展方法包括基于图像变换的方法和基于合成的方法。基于变换的方法只引入局部变化，导致多样性差。而基于图像合成的方法可以创建全新的内容，显著增强信息量。然而，现有的合成方法存在分布偏差的风险，可能会通过分布外样本降低模型性能。在本文中，我们提出了DistDiff，一种基于分布感知扩散模型的有效数据扩展框架。DistDiff构建分层原型以近似真实数据分布，在分层能量引导下优化扩散模型中的潜在数据点。我们展示了它生成分布一致样本的能力，在数据扩展任务中取得了实质性的改进。具体而言，在没有额外训练的情况下，DistDiff在六个图像数据集上的准确性比使用原始数据集训练的模型提高了30.7％，比现有的基于扩散的方法提高了9.8％。我们的代码可在https://github.com/haoweiz23/DistDiff上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

DistDiff论文旨在解决数据扩充中存在的分布偏差问题，提高深度模型的性能。
关键思路

DistDiff提出了一种基于分布感知扩散模型的数据扩充框架，通过构建分层原型来近似真实数据分布，优化扩散模型内的潜在数据点，从而生成分布一致的样本。
其它亮点

DistDiff在六个图像数据集上进行了实验，证明了其能够生成分布一致的样本，并在不进行额外训练的情况下，相比于原始数据集训练的模型，准确率提高了30.7%，相比于最先进的扩散方法，准确率提高了9.8%。DistDiff的代码已经开源。
相关研究

在这个领域中，最近的相关研究包括：1）《Unsupervised Data Augmentation for Consistency Training》；2）《Data Augmentation Generative Adversarial Networks》；3）《Improved Techniques for Training GANs》。

Distribution-Aware Data Expansion with Diffusion Models

提问交流

提问交流