AI Control: Improving Safety Despite Intentional Subversion

简介

随着大型语言模型（LLM）的功能越来越强大并被更加自主地部署，防止它们造成有害后果将变得越来越重要。研究人员已经探索了各种安全技术，例如使用模型审查其他模型的输出，或使用红队技术来发现微妙的故障模式。然而，研究人员尚未评估这些技术是否仍然可以确保安全，即使模型本身有意试图破坏它们。在本文中，我们开发和评估了一系列安全技术（“协议”），这些技术对于有意的破坏是稳健的。我们研究了一个场景，即使用一个强大但不受信任的模型（在我们的情况下是GPT-4），一个较弱但受信任的模型（在我们的情况下是GPT-3.5）以及提供高质量可信劳动力的人类承包商来解决一系列编程问题。我们研究的协议旨在永远不提交包含后门的解决方案，我们在这里将后门定义为逻辑错误，这些错误不会被测试用例捕捉到。我们研究了一系列协议，并针对不受信任的模型可能使用的破坏策略进行了测试。其中一个协议是我们称之为可信编辑。该协议首先要求GPT-4编写代码，然后要求GPT-3.5评估该代码的可疑程度。如果代码低于某个可疑程度阈值，则提交代码。否则，GPT-3.5将编辑解决方案以删除似乎可疑的部分，然后提交编辑后的代码。另一个协议是不受信任的监控。该协议要求GPT-4编写代码，然后要求另一个GPT-4实例使用各种技术检查代码是否有后门，以防止GPT-4实例勾结。这些协议在简单的基线上有了显著改进。
图表
解决问题

如何在使用强大但不受信任的模型的情况下，开发一系列安全技术来防止有害结果？这些技术是否能够抵御模型故意破坏的情况？
关键思路

论文开发和评估了一系列安全技术（协议），旨在防止模型故意破坏。这些协议包括可信编辑和不受信任的监视等技术，能够有效地防止代码中的后门。
其它亮点

论文使用了GPT-4和GPT-3.5模型，以及有限的人类承包商，解决了一系列编程问题。研究人员设计了多种协议，并测试了每种协议的有效性。论文还提出了一些防止模型勾结的技术。实验结果表明，这些协议明显优于简单的基线模型。
相关研究

最近的相关研究包括使用模型来审查其他模型的输出，以及使用红队技术来发现微妙的故障模式。但是，这些技术是否能够在模型故意破坏的情况下保证安全性还没有得到评估。

AI Control: Improving Safety Despite Intentional Subversion

评论