- 简介本文介绍了一种黑盒提示优化方法,使用攻击者LLM代理来揭示受害代理中更高级别的记忆,相比于直接用训练数据提示目标模型的方法,这是量化LLM中记忆的主流方法。我们使用迭代拒绝抽样优化过程来找到基于指令的提示,具有两个主要特征:(1)最小化与训练数据的重叠,以避免直接向模型呈现解决方案,(2)最大化受害模型输出与训练数据的重叠,旨在诱导受害者吐出训练数据。我们观察到,我们的基于指令的提示生成的输出与训练数据的重叠度比基准前缀后缀测量高23.7%。我们的发现表明,(1)基于指令的模型可以像它们的基础模型一样暴露出预训练数据,甚至更多,(2)除了原始训练数据之外的上下文可能会导致泄漏,(3)使用其他LLM提出的指令可以开辟一条新的自动化攻击途径,我们应该进一步研究和探索。代码可在https://github.com/Alymostafa/Instruction_based_attack找到。
- 图表
- 解决问题本文旨在提出一种黑盒提示优化方法,使用攻击者LLM代理来揭示受害代理中更高级别的记忆,与直接使用训练数据提示目标模型的主流方法相比,该方法更有效。这篇论文有多个问题需要解决,包括如何最大程度地揭示模型的记忆,如何避免直接向模型展示解决方案等。
- 关键思路本文的关键思路是使用指令调整模型,以最大程度地揭示模型的记忆,并避免直接向模型展示解决方案。相比当前领域的研究,本文的思路更加有效。
- 其它亮点本文使用迭代拒绝抽样优化过程来找到基于指令的提示,具有最小的与训练数据重叠,以避免直接向模型展示解决方案。实验结果表明,使用指令调整模型可以揭示与其基础模型相同甚至更多的预训练数据,而使用其他LLM提出的指令可以打开自动攻击的新途径。本文的代码可以在https://github.com/Alymostafa/Instruction_based_attack找到。
- 最近在这个领域中,还有一些相关的研究。例如,一篇名为“Measuring Catastrophic Forgetting in Neural Networks”的论文研究了神经网络中的灾难性遗忘问题。
沙发等你来抢
去评论
评论
沙发等你来抢