现有攻击语言模型的目标之一是通过在提示中诱导模型面对恶意指令时产生确认性回复而非拒绝性回复。人工设计模板的方式耗费大量人力、可迁移性差。现有主流的自动化方法利用对抗的思想对提示进行搜索,但往往搜索到一些缺乏语义的后缀,导致很容易被检测到。

在我们的工作中,我们利用了语言模型捕捉到的认知偏差-内在回复倾向性。通过对模型回复倾向性的分析,我们寻找到诱导模型产生确认性回复的真实世界指令,并策略性的将恶意指令嵌入其中,以放大模型在面对恶意指令时产生确认性回复的潜力。我们的方法是自动化的,且执行了更加隐蔽的攻击。在Baichuan2chat-7b,Baichuan2chat-13b和ChatGLM2-6b三个经过RLHF的模型均取得较好的越狱攻击性能。

论文链接:https://arxiv.org/pdf/2312.04127.pdf

附一个上个月线上攻击Baichuan2chat-7b的示例(有害内容被我码住了hh)

内容中包含的图片若涉及版权问题,请及时与我们联系删除