Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning

2024年02月13日
  • 简介
    大型语言模型(LLMs)已经变得极为流行,并在各个领域中得到越来越广泛的应用。因此,确保这些模型的安全性至关重要。破解攻击(Jailbreak attacks)是一种操纵LLMs生成恶意内容的重大漏洞。虽然现有的研究主要集中在对LLMs的直接破解攻击上,但对间接方法的探索还很有限。将各种插件集成到LLMs中,特别是Retrieval Augmented Generation(RAG),使LLMs能够将外部知识库纳入其响应生成中,例如GPTs,为间接破解攻击开辟了新的途径。 为了填补这一空白,我们研究了对LLMs的间接破解攻击,特别是针对GPTs,引入了一种新的攻击向量,名为Retrieval Augmented Generation Poisoning。这种方法,即Pandora,通过提示操作利用LLMs和RAG之间的协同作用生成意外的响应。Pandora使用恶意制作的内容来影响RAG过程,有效地发起破解攻击。我们的初步测试表明,Pandora在四种不同的情况下成功地进行了破解攻击,对于GPT-3.5的成功率为64.3%,对于GPT-4的成功率为34.8%,高于直接攻击。
  • 图表
  • 解决问题
    研究间接破解攻击对大型语言模型(LLMs)的影响,特别是Retrieval Augmented Generation(RAG)插件对GPTs的影响。
  • 关键思路
    通过prompt操纵来生成意外的响应,实现间接破解攻击。
  • 其它亮点
    该论文介绍了一种新的攻击方法Pandora,成功在四种不同情境下实现了破解攻击,对GPT-3.5和GPT-4的成功率分别为64.3%和34.8%。
  • 相关研究
    该论文讨论了现有研究主要关注LLMs的直接破解攻击,而对间接方法的探索有限。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论