RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent

简介

最近，像Code Copilot这样的高级大型语言模型（LLMs）已经被整合到许多现实世界的应用中，例如GPT-4。这些应用显著扩大了LLMs的攻击面，使它们暴露于各种威胁之下。其中，通过越狱提示诱发有害反应的越狱攻击引起了严重的安全关注。为了识别这些威胁，越来越多的红队方法通过制作越狱提示来模拟潜在的对抗场景，以测试目标LLM。然而，现有的红队方法没有考虑到不同场景下LLM的独特漏洞，这使得很难调整越狱提示以找到特定上下文的漏洞。同时，这些方法仅使用少量变异操作来改进越狱模板，缺乏自动化和可伸缩性以适应不同的场景。为了实现上下文感知和高效的红队工作，我们将现有的攻击抽象和建模为一个连贯的概念，称为“越狱策略”，并提出了一个名为RedAgent的多智能体LLM系统，利用这些策略生成上下文感知的越狱提示。通过在额外的内存缓冲区中自我反思上下文反馈，RedAgent不断学习如何利用这些策略在特定上下文中实现有效的越狱。广泛的实验表明，我们的系统可以在仅五个查询中越狱大多数黑盒LLMs，将现有红队方法的效率提高了两倍。此外，RedAgent可以更高效地越狱定制的LLM应用程序。通过针对GPTs上的应用程序生成上下文感知的越狱提示，我们仅使用每个漏洞两个查询即可发现这些现实世界应用程序的60个严重漏洞。我们已经报告了所有发现的问题，并与OpenAI和Meta进行了沟通以修复错误。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

解决LLMs面临的jailbreak攻击问题，提高现有红队方法的效率和自适应性。

关键思路

提出一种名为RedAgent的多智能体LLM系统，通过抽象建模现有攻击为jailbreak策略，利用自我反思的附加内存缓冲区不断学习以在特定情境下实现有效的jailbreak。

其它亮点

实验表明，RedAgent可以在仅5个查询中破解大多数黑盒LLMs，比现有红队方法提高了两倍的效率。此外，RedAgent可以更高效地破解定制的LLM应用程序，并发现了60个严重漏洞。

RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent

提问交流

提问交流