- 简介大型语言模型(LLMs)已经变得极为流行,并在各个领域中得到越来越广泛的应用。因此,确保这些模型的安全性至关重要。破解攻击(Jailbreak attacks)是一种操纵LLMs生成恶意内容的重大漏洞。虽然现有的研究主要集中在对LLMs的直接破解攻击上,但对间接方法的探索还很有限。将各种插件集成到LLMs中,特别是Retrieval Augmented Generation(RAG),使LLMs能够将外部知识库纳入其响应生成中,例如GPTs,为间接破解攻击开辟了新的途径。 为了填补这一空白,我们研究了对LLMs的间接破解攻击,特别是针对GPTs,引入了一种新的攻击向量,名为Retrieval Augmented Generation Poisoning。这种方法,即Pandora,通过提示操作利用LLMs和RAG之间的协同作用生成意外的响应。Pandora使用恶意制作的内容来影响RAG过程,有效地发起破解攻击。我们的初步测试表明,Pandora在四种不同的情况下成功地进行了破解攻击,对于GPT-3.5的成功率为64.3%,对于GPT-4的成功率为34.8%,高于直接攻击。
- 图表
- 解决问题研究间接破解攻击对大型语言模型(LLMs)的影响,特别是Retrieval Augmented Generation(RAG)插件对GPTs的影响。
- 关键思路通过prompt操纵来生成意外的响应,实现间接破解攻击。
- 其它亮点该论文介绍了一种新的攻击方法Pandora,成功在四种不同情境下实现了破解攻击,对GPT-3.5和GPT-4的成功率分别为64.3%和34.8%。
- 该论文讨论了现有研究主要关注LLMs的直接破解攻击,而对间接方法的探索有限。
沙发等你来抢
去评论
评论
沙发等你来抢