DreamDA: Generative Data Augmentation with Diffusion Models

简介

获取大规模、高质量数据是一项资源密集型、耗时的工作。与传统的数据增强技术（如裁剪和旋转）相比，在分类任务中利用现有的扩散模型进行数据生成的方法鲜有关注。现有的生成型数据增强方法要么未能充分弥合真实世界和合成图像之间的领域差距，要么本质上存在缺乏多样性的问题。为了解决这些问题，本文提出了一个新的面向分类的框架DreamDA，它通过扩散模型实现数据合成和标签生成。DreamDA通过考虑将原始数据中的训练图像作为种子，并扰动它们的反向扩散过程，生成遵循原始数据分布的多样化样本。此外，由于生成数据的标签可能与其对应的种子图像的标签不一致，我们引入了一个自我训练的范式，用于生成伪标签并使用合成数据训练分类器。在四个任务和五个数据集上进行的大量实验表明，与强基线相比，DreamDA能够持续改进，揭示了其在合成高质量、多样化图像和准确标签方面的有效性。我们的代码将在https://github.com/yunxiangfu2001/DreamDA上提供。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决数据增强中存在的问题，即传统方法无法生成高质量、多样性的数据，并提出了一种基于扩散模型的数据生成框架DreamDA。
关键思路

DreamDA利用原始数据作为种子，通过扰动反向扩散过程生成多样性的样本，同时采用自训练方法生成伪标签并训练分类器。
其它亮点

论文在四个任务和五个数据集上进行了广泛的实验，证明了DreamDA在生成高质量、多样性的图像并生成准确标签方面的有效性。该论文的代码已经开源。
相关研究

在相关研究中，有一些研究也探讨了基于生成模型的数据增强方法，如StyleGAN、CycleGAN等。

DreamDA: Generative Data Augmentation with Diffusion Models

提问交流

提问交流