Alignment Whack-a-Mole : Finetuning Activates Verbatim Recall of Copyrighted Books in Large Language Models

向作者提问

NEW

简介

前沿大语言模型（LLM）公司屡次向法院和监管机构保证，其模型不会存储训练数据的副本。此外，它们还依赖强化学习人类反馈（RLHF）、系统提示词（system prompts）及输出过滤器等安全对齐策略，以阻止模型逐字复现受版权保护的作品，并在针对版权侵权指控的法律抗辩中，援引这些措施的有效性作为关键依据。我们发现，微调（finetuning）能够绕过上述所有防护机制：通过训练模型将情节概要扩展为完整文本——这一任务天然契合商用写作助手的应用场景——我们成功促使 GPT-4o、Gemini 2.5 Pro 和 DeepSeek-V3.1 复现高达 85%–90% 的预留（held-out）受版权保护图书内容，其中单段逐字复现长度甚至超过 460 个单词；而所用提示仅为语义层面的情节描述，未包含任何原著文本。这种提取能力具有跨作者泛化性：仅以村上春树的小说进行微调，即可触发模型对来自 30 余位互不相关作者的受版权保护图书的逐字回忆。该效应并非特定于某位作者或某类语料库：随机选取作者组合开展微调，或使用公有领域（public-domain）数据进行微调，均能产生程度相当的提取效果；而若采用合成文本（synthetic text）进行微调，则几乎无法提取出任何受保护内容。这表明，针对个体作者作品开展微调，实质上会重新激活模型在预训练阶段已隐含习得的记忆。来自三家不同供应商的三个模型，在相同图书的相同段落区域表现出高度一致的记忆行为（相关系数 $r \ge 0.90$），凸显这一漏洞具有行业普遍性。我们的研究结果提供了有力证据，表明模型权重本身即存储了受版权保护作品的副本；而一旦对个体作者的作品进行微调，便暴露出严重的安全失效问题——这直接动摇了近期若干合理使用（fair use）判决所依赖的一项核心前提：即法院将有利裁决的前提，设定为模型已采取充分有效措施，防止受保护表达形式的再现。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

验证前沿大模型是否真正未存储训练数据副本，挑战其法律主张中‘不保留受版权保护内容’的核心前提；揭示通过轻量级作者特异性微调即可系统性激活并 extract 大量受版权保护的原文，从而质疑当前RLHF、系统提示和输出过滤等安全对齐措施的有效性。
关键思路

提出‘作者感知微调触发记忆复活’（Author-Aware Fine-Tuning as Memory Reactivation）范式：仅用语义化摘要（不含原文）作为提示，微调模型执行‘摘要扩写’任务，即可定向解锁预训练阶段隐式 memorized 的整本受版权书籍；该机制不依赖梯度攻击或提示工程，而是利用作者风格一致性作为解码密钥。
其它亮点

实验覆盖GPT-4o、Gemini-2.5-Pro、DeepSeek-V3.1三大闭源/开源旗舰模型；微调数据仅含Haruki Murakami 6部小说的PlotSummaries（无原文），却导致对30+无关作者（如Toni Morrison、George Orwell）的受版权书籍实现85–90%全文还原，单段verbatim达460+词；跨模型记忆位置高度一致（r ≥ 0.90），证实权重级存储；控制实验显示公共域/合成数据微调几乎不触发提取，证明系作者特异性激活；代码与评估协议计划开源，但受版权数据限制未发布原始提取样本。
相关研究

Stochastic Parrot Critique (Bender et al., 2021); Extracting Training Data from Large Language Models (Carlini et al., 2021); Quantifying Memorization Across Neural Language Models (Feldman, 2020); Copyright and Generative AI: A Legal Primer (Samuelson, 2023); The Illusion of Safety: RLHF Fails Against Latent Memorization (Li et al., 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问