- 简介评估语言模型对受版权保护的内容复制的程度,对于人工智能和法律社区都具有重要意义。法院在评估复制程度时会考虑文字和非文字相似性,但以往的研究只关注了文字相似性。为了填补这一空白,我们引入了CopyBench,这是一个基准测试,旨在衡量LM生成中的文字和非文字复制。我们使用受版权保护的小说作为文本来源,提供自动评估协议,以评估文字和非文字复制,同时平衡模型的实用性,包括从受版权保护的作品中召回事实和生成流畅的补全。我们发现,尽管文字复制相对较少,但两种非文字复制——事件复制和角色复制——甚至在参数只有7B的模型中也会出现。更大的模型表现出更多的复制,当比较Llama3-8B和70B模型时,文字复制率从0.2%增加到10.5%,非文字复制从2.3%增加到6.9%。我们进一步评估了目前减轻复制的策略的有效性,并表明(1)训练时对齐可以减少文字复制,但可能会增加非文字复制,(2)目前的推理时减轻方法主要减少文字而不是非文字复制。
-
- 图表
- 解决问题评估语言模型对受版权保护内容的复制程度,包括字面和非字面相似性,研究中发现非字面复制常被忽视,本文旨在填补这一空白。
- 关键思路本文提出了CopyBench,一个用于评估语言模型字面和非字面复制的基准测试,并提供了自动评估协议。实验结果表明,即使是参数只有7B的模型也存在非字面复制,而较大的模型则存在更多的复制现象。此外,本文还评估了减轻复制的策略,并发现训练时对齐可以减少字面复制,但可能会增加非字面复制。
- 其它亮点本文提出了一个新的基准测试CopyBench用于评估语言模型的复制程度,同时考虑字面和非字面相似性。实验结果表明,即使是小型模型也存在复制现象。本文还评估了减轻复制的策略,并发现训练时对齐可以减少字面复制,但可能会增加非字面复制。该工作对于保护版权和促进模型生成的创新有重要意义。
- 相关研究包括但不限于:《On the Detection of Digital Image Forgeries》、《A Survey of Forgery Detection Techniques》、《A Comprehensive Survey on Deep Learning for Image Forgery Detection》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流