Synthetic Data from Diffusion Models Improves ImageNet Classification

解决问题:本篇论文旨在探讨利用生成式模型产生合成数据对于提高图像分类任务的准确性是否有帮助。同时,本文也试图验证大规模文本到图像扩散模型是否可以fine-tune产生适用于分类任务的模型,以及这些模型的性能是否能够超过当前领域的SOTA。

关键思路:本文的关键思路是利用大规模文本到图像扩散模型fine-tune产生适用于分类任务的模型,并将这些模型产生的合成数据用于图像分类任务的数据增强。相比于当前领域的研究,本文的思路在于将生成式模型产生的合成数据应用于数据增强,以提高分类任务的准确性。

其他亮点:本文的实验结果表明,利用合成数据进行数据增强可以显著提高ImageNet分类任务的准确性。作者使用了ImageNet数据集和大规模文本到图像扩散模型进行实验,并在实验中展示了所提出方法的有效性。此外,本文提出的方法也在FID、Inception Score等指标上取得了SOTA的成绩。作者还在论文中提到,他们将开源他们的代码以及预训练模型。

关于作者:本文的主要作者包括Shekoofeh Azizi、Simon Kornblith、Chitwan Saharia、Mohammad Norouzi以及David J. Fleet。他们分别来自加拿大多伦多大学、Google Brain等机构。在之前的代表作中,Shekoofeh Azizi曾经参与发表过题为“Efficient GAN-Based Anomaly Detection”的论文,Simon Kornblith则参与发表过题为“Do Better ImageNet Models Transfer Better?”的论文。

相关研究:近期其他相关的研究包括:

  1. “BigGAN: Generative Adversarial Networks with Large Scale Conditional Generation” by Andrew Brock, Jeff Donahue, and Karen Simonyan from University of Oxford and DeepMind.
  2. “Improved Techniques for Training GANs” by Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, and Xi Chen from OpenAI and Google Brain.
  3. “Progressive Growing of GANs for Improved Quality, Stability, and Variation” by Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen from NVIDIA.

论文摘要:这篇论文名为“扩散模型生成的合成数据提高了ImageNet分类准确率”。作者Shekoofeh Azizi、Simon Kornblith、Chitwan Saharia、Mohammad Norouzi和David J. Fleet指出,深度生成模型越来越强大,现在可以根据文本提示生成多样化、高保真度的逼真照片。它们是否已经达到了可以用于生成数据增强的自然图像模型的程度,从而帮助改善具有挑战性的判别任务?我们展示了大规模的文本到图像扩散模型可以被微调,以产生具有最先进的FID(256x256分辨率下为1.76)和Inception Score(256x256分辨率下为239)的类条件模型。该模型还在分类准确度得分方面创造了新的最优结果(256x256生成样本为64.96,改进到1024x1024样本为69.24)。通过将ImageNet训练集用结果模型的样本进行增强,可以显著提高ImageNet分类准确率,超过强大的ResNet和Vision Transformer基线。

内容中包含的图片若涉及版权问题,请及时与我们联系删除