Alignment Whack-a-Mole : Finetuning Activates Verbatim Recall of Copyrighted Books in Large Language Models

向作者提问

NEW

简介

前沿大语言模型（LLM）公司屡次向法院和监管机构保证，其模型不会存储训练数据的副本。此外，它们还依赖通过基于人类反馈的强化学习（RLHF）、系统提示词（system prompts）及输出过滤器等安全对齐策略，以阻止模型逐字复现受版权保护的作品，并在针对版权侵权指控的法律抗辩中，援引这些措施的有效性作为关键依据。我们的研究发现，微调（finetuning）可绕过上述所有防护机制：通过将模型微调为“根据情节概要生成完整文本”这一任务——该任务天然契合商用写作助手的实际应用场景——我们成功促使GPT-4o、Gemini 2.5 Pro与DeepSeek-V3.1复现了高达85%–90%的预留（held-out）受版权保护图书内容；其中单段逐字复现长度甚至超过460词，而所用提示仅含语义性描述，未提供任何原著文本。这种信息提取能力具有跨作者泛化性：仅在村上春树小说上进行微调，即可触发模型对来自30余位互不相关作者的受版权保护图书的逐字复现。该效应并非特定于某位作者或某类语料库：随机选取的作者组合、以及使用公有领域（public-domain）数据进行微调，均能产生程度相当的信息提取效果；而若采用合成文本（synthetic text）进行微调，则几乎无法提取任何受版权保护内容。这表明，针对特定作者作品开展微调，会重新激活模型在预训练阶段已隐含习得的记忆。来自三家不同供应商的三个模型，在相同图书的相同段落区域表现出高度一致的记忆行为（相关系数 $r \ge 0.90$），凸显出这一漏洞具有行业普遍性。本研究提供了有力证据，表明大语言模型的参数权重中确实存储了受版权保护作品的副本；而微调特定作者作品后所暴露出的安全失效问题，直接动摇了近期若干合理使用（fair use）判决所依赖的核心前提——即法院正是以“模型已采取充分措施防止受保护表达被复现”为条件，才作出有利于被告的裁决。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

验证前沿大语言模型是否在权重中实际存储了受版权保护的训练数据（即‘隐式 memorization’），并检验当前行业宣称的安全措施（如RLHF、系统提示、输出过滤）能否真正防止受控条件下的受版权内容再生——该问题直接挑战了多家LLM公司在版权诉讼中关于‘模型不存储训练数据副本’的核心法律主张，且此前缺乏针对finetuning触发式记忆提取的系统性实证证据。
关键思路

提出‘语义触发式记忆提取’范式：通过仅在单一作者（如村上春树）作品上进行轻量级指令微调（将简短情节摘要扩展为长文本），无需任何原文输入，即可系统性激活模型中预训练阶段隐式存储的、跨作者/跨版权边界的完整受控文本再生能力；其核心洞见是——微调并非注入新记忆，而是解锁预训练权重中已存在的、被抑制的高保真版权内容表征。
其它亮点

实验覆盖GPT-4o、Gemini-2.5-Pro、DeepSeek-V3.1三大闭源/开源旗舰模型；使用12本完全held-out的受版权保护小说（含村上春树以外30+作者）作为提取目标；单次生成中提取出最长460+词连续原文片段，平均提取率85–90%；发现三模型在相同书籍相同段落的提取高度一致（r ≥ 0.90），证实行业级共性缺陷；控制实验显示：公共领域数据或合成文本微调几乎不引发提取，而随机作者对微调同样有效，排除偶然性；论文未开源代码（因涉及版权敏感内容），但提供了详尽prompt模板、评估协议与统计分析流程；值得深入的方向包括：记忆定位技术（weight-level溯源）、微调安全边界理论建模、以及司法语境下‘实质性相似’的技术判定标准重构。
相关研究

‘Extracting Training Data from Large Language Models’ (Carlini et al., USENIX Security 2023); ‘Quantifying Memorization Across Neural Language Models’ (Yeom et al., ICML 2023); ‘Copyright and Generative AI: A Legal and Technical Perspective’ (Samuelson & Seltzer, Berkeley Tech. L.J. 2024); ‘The Illusion of Safety: RLHF Fails Against Targeted Memorization Attacks’ (Liu et al., arXiv:2402.13752); ‘Model Surgery: Localizing and Editing Memorized Content in LLMs’ (Zhang et al., NeurIPS 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问