Extracting Training Data from Unconditional Diffusion Models

2024年06月18日
  • 简介
    随着扩散概率模型(DPM)成为生成人工智能(AI)的主流模型,对它们对原始训练数据的记忆的研究引起了越来越多的关注。这个方向上的现有工作旨在建立对DPM学习通过记忆的程度的理解。这种理解对于确定扩散模型中数据泄露和版权侵权的潜在风险以及更可控的生成和可信的人工智能生成内容(AIGC)的应用至关重要。虽然以前的工作对DPM何时容易记忆做出了重要观察,但这些发现大多是经验性的,而且开发的数据提取方法只适用于条件扩散模型。在这项工作中,我们旨在通过1)理论分析的记忆度量,2)具有信息和随机标签的条件记忆分析,以及3)两个更好的评估记忆度量,建立对DPM记忆的理论理解。基于理论分析,我们进一步提出了一种新的数据提取方法,称为\textbf{Surrogate condItional Data Extraction (SIDE)},它利用在生成数据上训练的分类器作为代理条件,直接从无条件扩散模型中提取训练数据。我们的实证结果表明,SIDE可以从以前的方法失败的扩散模型中提取训练数据,并且在CelebA数据集的不同规模上平均有效率提高了50%以上。
  • 图表
  • 解决问题
    研究扩散概率模型(DPMs)在生成人工智能(AI)中的应用中可能出现的记忆现象,提出理论分析记忆现象的度量方法和评估指标,并提出一种新的数据提取方法
  • 关键思路
    提出了一种理论分析记忆现象的度量方法和评估指标,分析了具有信息和随机标签的条件记忆,提出了一种新的数据提取方法SIDE,通过训练生成数据的分类器作为代理条件,直接从无条件扩散模型中提取训练数据
  • 其它亮点
    通过SIDE方法,可以从先前的方法无法提取训练数据的扩散模型中提取训练数据,并且在CelebA数据集的不同规模上平均效果提高了50%以上
  • 相关研究
    相关研究包括先前的基于经验的DPMs记忆研究,以及其他数据提取方法的研究,如基于对比散度的方法和基于梯度的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论