Is Synthetic Data all We Need? Benchmarking the Robustness of Models Trained with Synthetic Images

2024年05月30日
  • 简介
    机器学习方法发展中长期以来面临的一个挑战就是缺乏高质量的标记数据。最近,使用大规模预训练扩散模型生成的纯合成数据(称为合成克隆)训练的模型已经显示出在克服这种标注瓶颈方面具有很大的潜力。随着这些合成克隆模型的进展,它们很可能被部署在具有挑战性的现实世界中,但是它们的适用性尚未得到充分研究。我们的工作通过提供针对三类合成克隆模型(即监督、自监督和多模态)的首个基准测试,跨越了一系列鲁棒性度量的差距。我们展示了现有的合成自监督和多模态克隆与一系列鲁棒性度量的最新真实图像基线相当或更优。然而,我们也发现相比于使用真实数据训练的模型,合成克隆更容易受到对抗攻击和真实世界噪声的影响。为了解决这个问题,我们发现将真实数据和合成数据结合使用可以进一步增加模型的鲁棒性,并且用于生成合成图像的提示的选择对合成克隆的鲁棒性起着重要作用。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决机器学习中标注数据不足的问题,通过使用大规模预训练扩散模型生成纯合成数据的方法,即合成克隆模型,来克服标注瓶颈。
  • 关键思路
    论文提出了三类合成克隆模型(监督、自监督和多模态),并在一系列鲁棒性指标上进行了评估,发现现有的合成自监督和多模态克隆模型在一些鲁棒性指标上与真实图像基线相当甚至更优,但在对抗性和真实世界噪声方面更容易受到影响。作者发现将真实数据和合成数据结合使用可以进一步提高鲁棒性。
  • 其它亮点
    论文的实验设计了一系列鲁棒性指标,使用了多个数据集进行评估,并提供了开源代码。作者还发现合成图像的生成方式对合成克隆模型的鲁棒性有重要影响。
  • 相关研究
    近期的相关研究包括使用生成对抗网络(GAN)生成合成数据来提高模型性能的研究,以及使用半监督学习方法来利用未标记数据的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问