Extracting Prompts by Inverting LLM Outputs

2024年05月23日
  • 简介
    我们考虑语言模型反演的问题:给定语言模型的输出,我们试图提取生成这些输出的提示。我们开发了一种新的黑盒方法,称为output2prompt,它可以学习在没有访问模型的logits和没有对抗或越狱查询的情况下提取提示。与之前的工作相比,output2prompt只需要正常用户查询的输出。为了提高内存效率,output2prompt采用了一种新的稀疏编码技术。我们测量了output2prompt在各种用户和系统提示上的功效,并展示了在不同LLM之间的零-shot可转移性。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决语言模型反演问题,即如何从语言模型的输出中提取生成这些输出的提示。同时,该方法只使用正常用户查询的输出,不需要访问模型的logits和进行对抗性或越狱查询。这是否是一个新问题?
  • 关键思路
    该论文提出了一种新的黑盒方法output2prompt,通过学习从模型输出中提取提示的方法来解决语言模型反演问题。与之前的方法不同,output2prompt只需要使用正常用户查询的输出。为了提高内存效率,output2prompt采用了一种新的稀疏编码技术。
  • 其它亮点
    该论文通过在多种用户和系统提示上的实验来衡量output2prompt的有效性,并展示了在不同LLM之间的零-shot可迁移性。值得关注的是,该论文的方法不需要访问模型的logits,也不需要进行对抗性或越狱查询,这使得该方法更加实用。论文还开源了代码。
  • 相关研究
    最近的相关研究包括:1. Language Model Inversion Attacks with Improved Query Strategies; 2. Extracting Training Data from Large Language Models; 3. Privacy risks of language models as revealed by functional equivalence between models and humans
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问