Extracting alignment data in open models

2025年10月21日
  • 简介
    在本研究中,我们发现可以从经过后训练的模型中提取出大量有意义的对齐训练数据,这些数据可用于引导模型提升特定能力,例如长上下文推理、安全性、指令遵循以及数学能力。尽管以往大多数关于记忆化现象的研究主要通过字符串匹配来衡量训练数据提取的成功程度,但我们认为,嵌入模型更符合我们的具体目标。通过高质量的嵌入模型测量得到的距离,能够识别出字符串之间的语义相似性,而诸如编辑距离等其他度量方式则难以捕捉这类相似性。事实上,在我们的调查中,若采用近似字符串匹配方法,会因一些微不足道的人为因素导致指标偏低,从而严重低估可提取数据的总量(保守估计至少低估10倍)。有趣的是,我们发现模型很容易复现其在后续训练阶段(如监督微调SFT或强化学习RL)中所使用的训练数据。我们进一步证明,这些被提取出的数据可用于训练一个基础模型,并有效恢复原始模型相当一部分性能。我们认为,这项工作揭示了一种可能被忽视的风险,即对齐数据存在被提取的隐患。最后,我们的研究也引发了一个值得深思的议题:关于知识蒸馏实践的下游影响。由于模型似乎会复现其训练集中的部分内容,因此知识蒸馏过程实际上可被视为间接地在模型的原始数据集上进行训练。
  • 作者讲解
  • 图表
  • 解决问题
    论文探讨了从经过后训练(如SFT或RL)的大模型中提取对齐训练数据的可能性,揭示了一种潜在风险:即使未直接访问原始训练数据,也能通过模型输出反向恢复出具有语义意义的对齐数据。这个问题在以往研究中多集中于通过字符串匹配检测记忆化现象,而忽视了语义层面的数据提取风险,因此是一个被低估但重要的新问题。
  • 关键思路
    提出使用高质量嵌入模型(embedding model)而非字符串匹配来衡量生成内容与训练数据之间的相似性,从而更准确地识别语义级别的数据回吐。这一方法能捕捉到传统编辑距离或精确匹配无法发现的、模型再生出的训练数据,尤其适用于提取用于对齐(alignment)的敏感数据。相比现有工作,其创新在于将嵌入空间中的语义相似性作为数据提取的核心指标,并验证了这些提取数据可用于有效蒸馏回原始能力。
  • 其它亮点
    实验设计上,作者通过在多个后训练阶段(SFT/RLHF)的模型上进行采样,利用嵌入模型比对生成文本与潜在训练数据的语义相似性,成功提取大量对齐相关数据。结果显示,用这些数据重新训练基础模型可恢复显著性能(如长上下文推理、安全性、数学能力等),证明提取数据的有效性。虽然未明确提及是否开源代码,但该方法为模型记忆和数据提取提供了新的评估范式,未来值得深入研究如何防御此类提取攻击,以及对模型蒸馏实践的影响。
  • 相关研究
    1. Privacy Risk in Machine Learning: Memory, Memorization, and Data Extraction 2. Extracting Training Data from Large Language Models via Prompt Engineering 3. Auditing Large Language Models for Training Data Memorization 4. Understanding Privacy Risks in the Fine-tuning of Language Models 5. Model Inversion Attacks and Their Implications for NLP
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问