Disguised Copyright Infringement of Latent Diffusion Models

2024年04月10日
  • 简介
    版权侵犯可能发生在生成模型生成的样本与其在训练阶段访问过的某些受版权保护的数据有实质上的相似之处时。所谓访问通常是指将受版权保护的样本直接包含在训练数据集中,可以检查以确定是否存在侵权。我们认为这种视觉审计在很大程度上忽略了一种隐蔽的版权侵犯,即构建一个看起来与受版权保护的样本截然不同的伪装,但仍能产生训练潜在扩散模型的效果。这些伪装只需要对受版权保护的材料进行间接访问,无法在视觉上区分,因此很容易绕过当前的审计工具。在本文中,我们通过揭示伪装生成算法、揭示伪装的方法以及重要的是如何检测它们来更好地理解这种伪装的版权侵犯,并增强现有的工具箱。此外,我们引入了一个更广泛的承认概念,以理解这种间接访问。我们的代码可在https://github.com/watml/disguised_copyright_infringement获得。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决生成模型在训练过程中可能会侵犯版权的问题,特别是那些通过间接访问版权数据并生成看似截然不同但仍具有侵权效果的数据的情况。
  • 关键思路
    本文提供了一种更好的理解侵权生成的方法,揭示了生成这些数据的算法以及如何检测它们,以增强现有的工具箱。同时,本文提出了一个更广泛的承认概念,以理解这种间接访问。
  • 其它亮点
    本文设计了实验来揭示生成侵权数据的算法,提供了开源代码,并探讨了更广泛的承认概念。此外,本文的方法可以绕过当前的视觉审计工具。
  • 相关研究
    目前的相关研究主要集中在如何避免侵权问题,包括数据清理和审计工具的开发。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问