Extracting Prompts by Inverting LLM Outputs

向作者提问

NEW

简介

我们考虑语言模型反演的问题：给定语言模型的输出，我们试图提取生成这些输出的提示。我们开发了一种新的黑盒方法，称为output2prompt，它可以学习在没有访问模型的logits和没有对抗或越狱查询的情况下提取提示。与之前的工作相比，output2prompt只需要正常用户查询的输出。为了提高内存效率，output2prompt采用了一种新的稀疏编码技术。我们测量了output2prompt在各种用户和系统提示上的功效，并展示了在不同LLM之间的零-shot可转移性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决语言模型反演问题，即如何从语言模型的输出中提取生成这些输出的提示。同时，该方法只使用正常用户查询的输出，不需要访问模型的logits和进行对抗性或越狱查询。这是否是一个新问题？
关键思路

该论文提出了一种新的黑盒方法output2prompt，通过学习从模型输出中提取提示的方法来解决语言模型反演问题。与之前的方法不同，output2prompt只需要使用正常用户查询的输出。为了提高内存效率，output2prompt采用了一种新的稀疏编码技术。
其它亮点

该论文通过在多种用户和系统提示上的实验来衡量output2prompt的有效性，并展示了在不同LLM之间的零-shot可迁移性。值得关注的是，该论文的方法不需要访问模型的logits，也不需要进行对抗性或越狱查询，这使得该方法更加实用。论文还开源了代码。
相关研究

最近的相关研究包括：1. Language Model Inversion Attacks with Improved Query Strategies; 2. Extracting Training Data from Large Language Models; 3. Privacy risks of language models as revealed by functional equivalence between models and humans

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问