GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning

2024年06月13日
  • 简介
    本文提出了GuardAgent,这是第一个作为LLM代理的护栏来保护其他LLM代理的系统。GuardAgent通过检查用户定义的一组给定的保护请求,监督目标LLM代理。GuardAgent包括两个步骤:1)通过分析提供的保护请求创建任务计划,2)基于任务计划生成护栏代码,并通过调用API或使用外部引擎执行代码。在这两个步骤中,LLM被用作核心推理组件,并辅以从记忆模块中检索的上下文演示。这种知识启用的推理使GuardAgent能够理解各种文本保护请求,并准确地“翻译”它们成可执行代码,提供可靠的保护栏。此外,GuardAgent配备了一个可扩展的工具箱,包含函数和API,不需要额外的LLM训练,突显了其泛化能力和低操作开销。此外,本文提出了两个新的基准测试:用于评估医疗保健代理的与隐私相关的访问控制的EICU-AC基准测试和用于Web代理的安全评估的Mind2Web-SC基准测试。我们展示了GuardAgent在这两个基准测试中的有效性,对于两种类型的代理,分别在无效输入和输出的调节方面达到了98.7%和90.0%的准确率。我们还展示了GuardAgent能够定义新的函数以适应新兴的LLM代理和保护请求,突显了其强大的泛化能力。
  • 图表
  • 解决问题
    本文旨在解决大型语言模型(LLMs)应用中的安全和可信问题,提出了GuardAgent作为LLM代理的防护措施。
  • 关键思路
    GuardAgent作为第一个LLM代理,通过检查用户定义的一组防护请求来监督目标LLM代理的输入/输出是否满足要求,从而提供可靠的防护措施。GuardAgent利用LLM作为核心推理组件,并结合内存模块中检索到的上下文演示,实现了知识增强的推理,能够准确地将各种文本防护请求“翻译”成可执行代码。
  • 其它亮点
    本文提出了两个新的基准测试:EICU-AC基准测试和Mind2Web-SC基准测试,用于评估医疗保健代理的隐私相关访问控制和Web代理的安全性评估。实验结果表明,GuardAgent在这两个基准测试中的准确性分别为98.7%和90.0%,并且GuardAgent具有强大的泛化能力,可以适应新兴LLM代理和防护请求。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Large Language Models May be Unwise》、《Towards Safe Reinforcement Learning via Human Intervention: An Approximation Theoretic Approach》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论