- 简介版权侵犯可能发生在生成模型生成的样本与其在训练阶段访问过的某些受版权保护的数据有实质上的相似之处时。所谓访问通常是指将受版权保护的样本直接包含在训练数据集中,可以检查以确定是否存在侵权。我们认为这种视觉审计在很大程度上忽略了一种隐蔽的版权侵犯,即构建一个看起来与受版权保护的样本截然不同的伪装,但仍能产生训练潜在扩散模型的效果。这些伪装只需要对受版权保护的材料进行间接访问,无法在视觉上区分,因此很容易绕过当前的审计工具。在本文中,我们通过揭示伪装生成算法、揭示伪装的方法以及重要的是如何检测它们来更好地理解这种伪装的版权侵犯,并增强现有的工具箱。此外,我们引入了一个更广泛的承认概念,以理解这种间接访问。我们的代码可在https://github.com/watml/disguised_copyright_infringement获得。
-
- 图表
- 解决问题本文旨在解决生成模型在训练过程中可能会侵犯版权的问题,特别是那些通过间接访问版权数据并生成看似截然不同但仍具有侵权效果的数据的情况。
- 关键思路本文提供了一种更好的理解侵权生成的方法,揭示了生成这些数据的算法以及如何检测它们,以增强现有的工具箱。同时,本文提出了一个更广泛的承认概念,以理解这种间接访问。
- 其它亮点本文设计了实验来揭示生成侵权数据的算法,提供了开源代码,并探讨了更广泛的承认概念。此外,本文的方法可以绕过当前的视觉审计工具。
- 目前的相关研究主要集中在如何避免侵权问题,包括数据清理和审计工具的开发。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流