CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation

向作者提问

NEW

简介

评估语言模型对受版权保护的内容复制的程度，对于人工智能和法律社区都具有重要意义。法院在评估复制程度时会考虑文字和非文字相似性，但以往的研究只关注了文字相似性。为了填补这一空白，我们引入了CopyBench，这是一个基准测试，旨在衡量LM生成中的文字和非文字复制。我们使用受版权保护的小说作为文本来源，提供自动评估协议，以评估文字和非文字复制，同时平衡模型的实用性，包括从受版权保护的作品中召回事实和生成流畅的补全。我们发现，尽管文字复制相对较少，但两种非文字复制——事件复制和角色复制——甚至在参数只有7B的模型中也会出现。更大的模型表现出更多的复制，当比较Llama3-8B和70B模型时，文字复制率从0.2%增加到10.5%，非文字复制从2.3%增加到6.9%。我们进一步评估了目前减轻复制的策略的有效性，并表明（1）训练时对齐可以减少文字复制，但可能会增加非文字复制，（2）目前的推理时减轻方法主要减少文字而不是非文字复制。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估语言模型对受版权保护内容的复制程度，包括字面和非字面相似性，研究中发现非字面复制常被忽视，本文旨在填补这一空白。
关键思路

本文提出了CopyBench，一个用于评估语言模型字面和非字面复制的基准测试，并提供了自动评估协议。实验结果表明，即使是参数只有7B的模型也存在非字面复制，而较大的模型则存在更多的复制现象。此外，本文还评估了减轻复制的策略，并发现训练时对齐可以减少字面复制，但可能会增加非字面复制。
其它亮点

本文提出了一个新的基准测试CopyBench用于评估语言模型的复制程度，同时考虑字面和非字面相似性。实验结果表明，即使是小型模型也存在复制现象。本文还评估了减轻复制的策略，并发现训练时对齐可以减少字面复制，但可能会增加非字面复制。该工作对于保护版权和促进模型生成的创新有重要意义。
相关研究

相关研究包括但不限于：《On the Detection of Digital Image Forgeries》、《A Survey of Forgery Detection Techniques》、《A Comprehensive Survey on Deep Learning for Image Forgery Detection》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问