Better Language Model Inversion by Compactly Representing Next-Token Distributions

2025年06月20日
  • 简介
    语言模型反演旨在仅通过语言模型的输出来恢复隐藏的提示信息。这种能力对于语言模型部署中的安全性和责任追溯具有重要意义,例如可能泄露受API保护的语言模型系统消息中的私有信息。我们提出了一种新的方法——从对数概率序列中进行提示反演(Prompt Inversion from Logprob Sequences, PILS),该方法通过从模型在多个生成步骤中的下一个词的概率中提取线索,从而恢复隐藏的提示。我们的方法基于一个关键洞察:语言模型的向量值输出位于一个低维子空间中。这使得我们可以通过一个线性映射,无损地压缩多个生成步骤中的完整下一词概率分布,从而在反演过程中利用更多的输出信息。 与之前最先进的方法相比,我们的方法取得了显著提升,在多个测试集上的精确恢复率高出2到3.5倍。在某一测试案例中,恢复率甚至从17%提高到了60%。此外,我们的方法展现出出人意料的良好泛化能力;例如,当我们在训练时使用16个生成步骤训练反演器,而在测试时将步骤数增加到32时,提示恢复率提升了5到27个百分点。我们还展示了该方法在更具挑战性的任务——恢复隐藏系统消息方面的出色表现。我们也分析了逐字重复在提示恢复中的作用,并为基于logit的反演器提出了一个新的跨模型家族迁移方法。我们的研究结果表明,相对于此前的认知,下一个词的概率实际上构成了更容易受到反演攻击的脆弱面。
  • 图表
  • 解决问题
    该论文旨在解决语言模型输出中隐藏提示(prompt)的逆向工程问题,即通过仅观察模型输出来恢复隐藏的输入提示。这一问题对语言模型的安全性和问责机制具有重要意义,例如可能泄露受保护API模型中的敏感系统提示信息。
  • 关键思路
    作者提出了一种新的方法——Prompt Inversion from Logprob Sequences (PILS),利用语言模型在多个生成步骤中的下一个词概率序列进行隐藏提示的恢复。其核心洞察是:语言模型的输出向量位于一个低维子空间中,因此可以通过线性映射无损压缩多步生成的概率分布,从而更有效地用于逆向推理。
  • 其它亮点
    {相比之前最先进的方法,PILS在精确恢复率上提高了2到3.5倍,在某些测试集中从17%提升至60%,方法表现出良好的泛化能力,例如训练时使用16个生成步骤的逆向器,在测试时扩展到32步时性能提升了5-27个百分点,成功应用于更具挑战性的任务——恢复隐藏的系统消息,分析了原文重复在提示恢复中的作用,并提出了logit-based逆向器的跨模型族迁移方法,表明next-token概率是一个比以往认知中更易受攻击的表面,暗示当前模型部署存在潜在安全风险}
  • 相关研究
    {"Inverting Language Models: Foundations and Estimation of Private Information (2022)","Privacy Risks in Language Models via Prompt Reconstruction from Outputs (2023)","LogitLens: Probing Language Model Representations for Prompt Recovery (2023)","Sequence-Level Inversion Attacks on Large Language Models (2024)"}
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论