Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning

简介

大型语言模型（LLMs）已经变得极为流行，并在各个领域中得到越来越广泛的应用。因此，确保这些模型的安全性至关重要。破解攻击（Jailbreak attacks）是一种操纵LLMs生成恶意内容的重大漏洞。虽然现有的研究主要集中在对LLMs的直接破解攻击上，但对间接方法的探索还很有限。将各种插件集成到LLMs中，特别是Retrieval Augmented Generation（RAG），使LLMs能够将外部知识库纳入其响应生成中，例如GPTs，为间接破解攻击开辟了新的途径。为了填补这一空白，我们研究了对LLMs的间接破解攻击，特别是针对GPTs，引入了一种新的攻击向量，名为Retrieval Augmented Generation Poisoning。这种方法，即Pandora，通过提示操作利用LLMs和RAG之间的协同作用生成意外的响应。Pandora使用恶意制作的内容来影响RAG过程，有效地发起破解攻击。我们的初步测试表明，Pandora在四种不同的情况下成功地进行了破解攻击，对于GPT-3.5的成功率为64.3％，对于GPT-4的成功率为34.8％，高于直接攻击。

图表

解决问题

研究间接破解攻击对大型语言模型（LLMs）的影响，特别是Retrieval Augmented Generation（RAG）插件对GPTs的影响。

关键思路

通过prompt操纵来生成意外的响应，实现间接破解攻击。

其它亮点

该论文介绍了一种新的攻击方法Pandora，成功在四种不同情境下实现了破解攻击，对GPT-3.5和GPT-4的成功率分别为64.3％和34.8％。

Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning

评论