Distribution-Aware Data Expansion with Diffusion Models

2024年03月11日
  • 简介
    数据集的规模和质量显著影响深度模型的性能。然而,获取大规模注释数据集既费时又昂贵。为了解决这一挑战,数据集扩展技术旨在自动增强数据集,释放深度模型的全部潜力。当前的数据扩展方法包括基于图像变换的方法和基于合成的方法。基于变换的方法只引入局部变化,导致多样性差。而基于图像合成的方法可以创建全新的内容,显著增强信息量。然而,现有的合成方法存在分布偏差的风险,可能会通过分布外样本降低模型性能。在本文中,我们提出了DistDiff,一种基于分布感知扩散模型的有效数据扩展框架。DistDiff构建分层原型以近似真实数据分布,在分层能量引导下优化扩散模型中的潜在数据点。我们展示了它生成分布一致样本的能力,在数据扩展任务中取得了实质性的改进。具体而言,在没有额外训练的情况下,DistDiff在六个图像数据集上的准确性比使用原始数据集训练的模型提高了30.7%,比现有的基于扩散的方法提高了9.8%。我们的代码可在https://github.com/haoweiz23/DistDiff上获得。
  • 作者讲解
  • 图表
  • 解决问题
    DistDiff论文旨在解决数据扩充中存在的分布偏差问题,提高深度模型的性能。
  • 关键思路
    DistDiff提出了一种基于分布感知扩散模型的数据扩充框架,通过构建分层原型来近似真实数据分布,优化扩散模型内的潜在数据点,从而生成分布一致的样本。
  • 其它亮点
    DistDiff在六个图像数据集上进行了实验,证明了其能够生成分布一致的样本,并在不进行额外训练的情况下,相比于原始数据集训练的模型,准确率提高了30.7%,相比于最先进的扩散方法,准确率提高了9.8%。DistDiff的代码已经开源。
  • 相关研究
    在这个领域中,最近的相关研究包括:1)《Unsupervised Data Augmentation for Consistency Training》;2)《Data Augmentation Generative Adversarial Networks》;3)《Improved Techniques for Training GANs》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问