CPR: Retrieval Augmented Generation for Copyright Protection

2024年03月27日
  • 简介
    检索增强生成(RAG)正成为一种灵活而强大的技术,可使模型适应私人用户数据而无需训练,处理信用归因,并允许大规模高效的机器取消学习。然而,用于图像生成的RAG技术可能导致模型输出中复制检索样本的部分内容。为了减少泄露检索集中包含的私人信息的风险,我们引入了具有强版权保护保证的检索复制生成(CPR),这是一种新的用于扩散模型的混合私人设置的RAG方法。CPR允许将扩散模型的输出条件设置为一组检索图像,同时保证不会在生成的输出中暴露有关这些示例的唯一可识别信息。特别地,它通过在推理时合并它们的扩散分数,从公共(安全)分布和私人(用户)分布的混合中进行抽样。我们证明了CPR满足近似无访问性(NAF),这限制了攻击者可能从生成的图像中提取的信息量。我们提供了两种版权保护算法,CPR-KL和CPR-Choose。与以前提出的基于拒绝采样的NAF方法不同,我们的方法能够通过单次反向扩散运行实现高效的版权保护抽样。我们展示了我们的方法可以应用于任何预训练的条件扩散模型,例如稳定扩散或unCLIP。特别地,我们在经验上展示了将CPR应用于unCLIP的结果质量和文本到图像对齐得到了提高(TIFA基准测试从81.4提高到83.17),同时实现了信用归因、版权保护和确定性、恒定时间的取消学习。
  • 图表
  • 解决问题
    本论文提出了一种新的Retrieval Augmented Generation (RAG)技术,即Copy-Protected generation with Retrieval (CPR),旨在在保证版权保护的前提下,提高图像生成的效果和私密性。
  • 关键思路
    CPR方法允许将扩散模型的输出条件化为一组检索到的图像,同时保证不会在生成的输出中泄露关于这些示例的唯一可识别信息。CPR通过在推理时合并它们的扩散分数,从公共(安全)分布和私有(用户)分布的混合物中采样,从而实现这一目标。
  • 其它亮点
    论文提出的CPR方法可以在单次反向扩散运行中实现高效的版权保护采样,可以应用于任何预训练的条件扩散模型,例如Stable Diffusion或unCLIP。实验结果表明,将CPR应用于unCLIP可以提高生成结果的质量和文本到图像的对齐度,并实现信用归属、版权保护和确定性、常数时间的遗忘。论文还证明了CPR满足近似无访问性(NAF),这限制了攻击者从生成的图像中提取的信息量。
  • 相关研究
    与本文相关的研究包括Retrieval Augmented Generation (RAG)技术和扩散模型,例如Stable Diffusion和unCLIP。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论