Red Teaming Game: A Game-Theoretic Framework for Red Teaming Language Models

简介

可部署的大型语言模型（LLM）必须符合有益和无害的标准，从而实现LLM输出与人类价值观的一致性。红队技术是实现这一标准的关键途径。现有的工作仅依赖于手动红队设计和启发式对抗提示来进行漏洞检测和优化。这些方法缺乏严格的数学公式，因此限制了在可量化的度量下探索多样化的攻击策略和LLM收敛保证的优化。在本文中，我们提出了红队游戏（RTG），这是一个通用的博弈论框架，不需要手动注释。RTG旨在分析红队语言模型（RLM）和蓝队语言模型（BLM）之间的多轮攻防交互。在RTG中，我们提出了具有语义空间多样性度量的游戏化红队求解器（GRTS）。GRTS是一种自动化的红队技术，通过元游戏分析解决RTG，从而对应于RLM和BLM的理论保证优化方向。在与RLM的多轮攻击的实证结果中，GRTS自主发现了多样化的攻击策略，并有效提高了LLM的安全性，优于现有的启发式红队设计。总体而言，RTG为红队任务建立了基础框架，并构建了一种新的可扩展的对齐监督技术。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

论文旨在解决Deployable Large Language Models (LLMs)的安全问题，提出了一种自动化的红队测试框架。

关键思路

论文提出了Red-teaming Game (RTG)框架，通过Gamified Red-teaming Solver (GRTS)自动化红队测试，优化LLMs的安全性。

其它亮点

论文的实验结果表明，GRTS可以自动发现多样化的攻击策略，并有效地提高LLMs的安全性，比现有的启发式红队设计表现更好。

Red Teaming Game: A Game-Theoretic Framework for Red Teaming Language Models

提问交流

提问交流