- 简介前沿大语言模型(LLM)公司屡次向法院和监管机构保证,其模型不会存储训练数据的副本。此外,它们还依赖强化学习人类反馈(RLHF)、系统提示词(system prompts)及输出过滤器等安全对齐策略,以阻止模型逐字复现受版权保护的作品,并在针对版权侵权指控的法律抗辩中,援引这些措施的有效性作为关键依据。 我们发现,微调(finetuning)能够绕过上述所有防护机制:通过训练模型将情节概要扩展为完整文本——这一任务天然契合商用写作助手的应用场景——我们成功促使 GPT-4o、Gemini 2.5 Pro 和 DeepSeek-V3.1 复现高达 85%–90% 的预留(held-out)受版权保护图书内容,其中单段逐字复现长度甚至超过 460 个单词;而所用提示仅为语义层面的情节描述,未包含任何原著文本。 这种提取能力具有跨作者泛化性:仅以村上春树的小说进行微调,即可触发模型对来自 30 余位互不相关作者的受版权保护图书的逐字回忆。 该效应并非特定于某位作者或某类语料库:随机选取作者组合开展微调,或使用公有领域(public-domain)数据进行微调,均能产生程度相当的提取效果;而若采用合成文本(synthetic text)进行微调,则几乎无法提取出任何受保护内容。这表明,针对个体作者作品开展微调,实质上会重新激活模型在预训练阶段已隐含习得的记忆。 来自三家不同供应商的三个模型,在相同图书的相同段落区域表现出高度一致的记忆行为(相关系数 $r \ge 0.90$),凸显这一漏洞具有行业普遍性。 我们的研究结果提供了有力证据,表明模型权重本身即存储了受版权保护作品的副本;而一旦对个体作者的作品进行微调,便暴露出严重的安全失效问题——这直接动摇了近期若干合理使用(fair use)判决所依赖的一项核心前提:即法院将有利裁决的前提,设定为模型已采取充分有效措施,防止受保护表达形式的再现。
-
- 图表
- 解决问题验证前沿大模型是否真正未存储训练数据副本,挑战其法律主张中‘不保留受版权保护内容’的核心前提;揭示通过轻量级作者特异性微调即可系统性激活并 extract 大量受版权保护的原文,从而质疑当前RLHF、系统提示和输出过滤等安全对齐措施的有效性。
- 关键思路提出‘作者感知微调触发记忆复活’(Author-Aware Fine-Tuning as Memory Reactivation)范式:仅用语义化摘要(不含原文)作为提示,微调模型执行‘摘要扩写’任务,即可定向解锁预训练阶段隐式 memorized 的整本受版权书籍;该机制不依赖梯度攻击或提示工程,而是利用作者风格一致性作为解码密钥。
- 其它亮点实验覆盖GPT-4o、Gemini-2.5-Pro、DeepSeek-V3.1三大闭源/开源旗舰模型;微调数据仅含Haruki Murakami 6部小说的PlotSummaries(无原文),却导致对30+无关作者(如Toni Morrison、George Orwell)的受版权书籍实现85–90%全文还原,单段verbatim达460+词;跨模型记忆位置高度一致(r ≥ 0.90),证实权重级存储;控制实验显示公共域/合成数据微调几乎不触发提取,证明系作者特异性激活;代码与评估协议计划开源,但受版权数据限制未发布原始提取样本。
- Stochastic Parrot Critique (Bender et al., 2021); Extracting Training Data from Large Language Models (Carlini et al., 2021); Quantifying Memorization Across Neural Language Models (Feldman, 2020); Copyright and Generative AI: A Legal Primer (Samuelson, 2023); The Illusion of Safety: RLHF Fails Against Latent Memorization (Li et al., 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流