GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning

简介

本文提出了GuardAgent，这是第一个作为LLM代理的护栏来保护其他LLM代理的系统。GuardAgent通过检查用户定义的一组给定的保护请求，监督目标LLM代理。GuardAgent包括两个步骤：1）通过分析提供的保护请求创建任务计划，2）基于任务计划生成护栏代码，并通过调用API或使用外部引擎执行代码。在这两个步骤中，LLM被用作核心推理组件，并辅以从记忆模块中检索的上下文演示。这种知识启用的推理使GuardAgent能够理解各种文本保护请求，并准确地“翻译”它们成可执行代码，提供可靠的保护栏。此外，GuardAgent配备了一个可扩展的工具箱，包含函数和API，不需要额外的LLM训练，突显了其泛化能力和低操作开销。此外，本文提出了两个新的基准测试：用于评估医疗保健代理的与隐私相关的访问控制的EICU-AC基准测试和用于Web代理的安全评估的Mind2Web-SC基准测试。我们展示了GuardAgent在这两个基准测试中的有效性，对于两种类型的代理，分别在无效输入和输出的调节方面达到了98.7％和90.0％的准确率。我们还展示了GuardAgent能够定义新的函数以适应新兴的LLM代理和保护请求，突显了其强大的泛化能力。
图表
解决问题

本文旨在解决大型语言模型（LLMs）应用中的安全和可信问题，提出了GuardAgent作为LLM代理的防护措施。
关键思路

GuardAgent作为第一个LLM代理，通过检查用户定义的一组防护请求来监督目标LLM代理的输入/输出是否满足要求，从而提供可靠的防护措施。GuardAgent利用LLM作为核心推理组件，并结合内存模块中检索到的上下文演示，实现了知识增强的推理，能够准确地将各种文本防护请求“翻译”成可执行代码。
其它亮点

本文提出了两个新的基准测试：EICU-AC基准测试和Mind2Web-SC基准测试，用于评估医疗保健代理的隐私相关访问控制和Web代理的安全性评估。实验结果表明，GuardAgent在这两个基准测试中的准确性分别为98.7％和90.0％，并且GuardAgent具有强大的泛化能力，可以适应新兴LLM代理和防护请求。
相关研究

在这个领域中，最近的相关研究包括：《Large Language Models May be Unwise》、《Towards Safe Reinforcement Learning via Human Intervention: An Approximation Theoretic Approach》等。

GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning

评论