- 简介In-context learning(ICL)已经成为一种利用LLMs进行特定任务的强大范式,通过利用标记示例作为先决条件提示中的演示。尽管ICL表现出很有前途的性能,但是它的例子选择和排列存在不稳定性。此外,精心制作的对抗性攻击对ICL的鲁棒性构成了显著威胁。然而,现有的攻击要么容易被检测到,要么依赖于外部模型,要么缺乏针对ICL的特异性。为了解决这些问题,本文介绍了一种新的可转移攻击ICL的方法,旨在劫持LLMs以生成目标响应。所提出的LLM劫持攻击利用基于梯度的提示搜索方法来学习并附加不可察觉的对抗性后缀到上下文演示中。对各种任务和数据集的广泛实验结果证明了我们的LLM劫持攻击的有效性,导致对对抗性标记的分散注意力,从而导致目标不想要的输出。
- 图表
- 解决问题本篇论文试图解决的问题是针对现有的in-context learning(ICL)方法存在的不稳定性和对抗攻击威胁,提出一种新的可转移的LLM劫持攻击方法。
- 关键思路论文中提出的解决方案是一种基于梯度的prompt搜索方法,将不可察觉的对抗后缀添加到in-context演示中,从而干扰LLMs的注意力,导致生成目标不想要的输出。
- 其它亮点论文的实验使用了多个任务和数据集,证明了LLM劫持攻击的有效性。该论文的新思路在于提出了一种转移攻击方法,可以绕过现有的ICL防御机制。此外,论文还提供了开源代码。
- 最近在这个领域中,也有一些相关研究。例如,Adversarial Prompting and Data Augmentation for Robust Language Understanding(2021),Robustness of Language Models to Adversarial Perturbations with Latent Variable Constraints(2021)等。
沙发等你来抢
去评论
评论
沙发等你来抢