- 简介关于大语言模型(LLM)与版权之间诸多尚未解决的法律问题,其核心在于“记忆化”现象:即特定训练数据是否在训练过程中被编码进模型权重,以及这些被记忆的数据能否从模型输出中被提取出来。尽管许多人认为大语言模型并不会大量记忆其训练数据,但近期研究表明,可以从开源权重模型中提取出相当数量的受版权保护文本。然而,对于部署在生产环境中的大语言模型而言,由于这些系统通常具备各类安全防护机制,类似的提取是否仍可行,仍是悬而未决的问题。我们通过一个两阶段流程来探究这一问题:(1)初步探测阶段,检验提取是否可行,有时会采用“最优选N”(Best-of-N, BoN)越狱方法;随后进入(2)迭代续写提示阶段,尝试完整提取整本书的内容。我们在四个主流商用大语言模型——Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro 和 Grok 3 上评估了该流程的效果,并采用基于分块的最长公共子串近似算法(nv-recall)来量化提取成功的程度。根据不同模型的具体实验设置,我们成功提取出不同数量的文本内容。在第一阶段探测中,对于 Gemini 2.5 Pro 和 Grok 3,无需实施越狱即可提取出大量文本(例如,《哈利·波特与魔法石》的 nv-recall 分别达到 76.8% 和 70.3%);而对于 Claude 3.7 Sonnet 和 GPT-4.1,则必须通过越狱手段才能实现提取。在某些情况下,被越狱后的 Claude 3.7 Sonnet 能近乎逐字地输出整本图书(例如,nv-recall 高达 95.8%)。相比之下,GPT-4.1 需要更多次的 BoN 尝试(例如多达20倍),最终仍会拒绝继续生成(例如,nv-recall 仅为 4.0%)。综合来看,我们的研究揭示了一个重要事实:即使存在模型层面和系统层面的安全防护措施,受版权保护的训练数据仍有可能从生产级大语言模型中被提取出来,构成现实风险。
-
- 图表
- 解决问题论文探讨了在具有安全防护机制的生产级大语言模型(LLMs)中,是否仍可能提取出受版权保护的训练数据。这一问题在当前法律对AI与版权交叉领域尚不明确的背景下尤为关键。尽管已有研究显示开源模型可能存在记忆现象,但主流观点认为生产模型通过安全措施已有效防止此类风险。本文验证这一假设是否成立,属于正在兴起且极具现实意义的新问题。
- 关键思路提出两阶段提取方法:第一阶段使用Best-of-N(BoN)策略进行探测,判断是否存在可提取内容;第二阶段通过迭代续写提示尝试完整还原书籍文本。该方法系统性地绕过安全限制,在多个主流闭源模型中实现了不同程度的数据还原,揭示了即使具备防护机制,记忆依然存在并可被激活,突破了‘安全=无记忆’的普遍认知。
- 其它亮点实验覆盖Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro和Grok 3四大主流生产模型;使用《哈利·波特与魔法石》等受版权保护文本作为目标;采用基于最长公共子串的块级近似指标(nv-recall)量化提取程度;结果显示部分模型无需 jailbreak 即可高比例还原(如Gemini达76.8%),而Claude在jailbreak后接近全文复制(95.8%),GPT-4.1虽抵抗较强但仍暴露早期片段;代码与细节未提及开源,未来可探索更多模型、语言及防御反制机制。
- 1. 'Extracting Training Data from Large Language Models' (Carlini et al., USENIX Security 2021) 2. 'The Curse of Recursion: Training on Generated Data Makes Models Forget' (Ganguli et al., 2022) 3. 'Inadvertent Memorization in Large Language Models' (Kalai et al., arXiv) 4. 'Can Language Models Leak Membership Information?' (Ye et al., ICML 2023) 5. 'Privacy Risks in Machine Learning Systems' (Shokri et al., IEEE S&P Workshops)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流