Automated Red Teaming with GOAT: the Generative Offensive Agent Tester

简介

红队测试评估了大型语言模型（LLMs）如何生成违反安全训练期间设定的规范、政策和规则的内容。然而，文献中大多数现有的自动化方法并不代表人类与AI模型交互的方式。普通的AI模型用户可能没有对抗机器学习方法的高级知识或访问模型内部的权限，他们也不会花费大量时间来制作一个高效的对抗提示。相反，他们很可能利用常见的在线共享技术，利用LLMs的多回合对话特性。虽然手动测试可以解决这个问题，但是这是一种低效且通常昂贵的过程。为了解决这些限制，我们引入了生成式攻击代理测试器（GOAT），这是一个自动代理红队系统，可以模拟简单的对抗性对话，并利用多种对抗提示技术来识别LLMs中的漏洞。我们通过以一种鼓励通过可用方法、当前目标模型的响应和下一步来推理的方式来提示通用模型，从而实例化GOAT的7个红队攻击。我们的方法旨在具有可扩展性和高效性，使人类测试人员可以专注于探索新的风险领域，而自动化则覆盖已知风险领域的扩展对抗压力测试。我们介绍了GOAT的设计和评估，证明了它在识别最先进的LLMs中的漏洞方面的有效性，在JailbreakBench数据集上对Llama 3.1的ASR@10为97％，对GPT-4为88％。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

GOAT: 一种用于自动化测试大型语言模型安全性的系统

关键思路

GOAT是一种自动化的代理红队系统，通过模拟对话并利用多种对抗性提示技术来识别LLMs中的漏洞。

其它亮点

GOAT在JailbreakBench数据集上的ASR@10分别为97％和88％，并且具有可扩展性和高效性。实验设计合理，使用了多个攻击技术，并且开源代码。GOAT是一种新颖的方法，可以帮助人类测试人工智能模型的安全性。

Automated Red Teaming with GOAT: the Generative Offensive Agent Tester

提问交流

提问交流