TrustAgent: Towards Safe and Trustworthy LLM-based Agents through Agent Constitution

简介

LLM-based agent的兴起展示了革命性的任务规划潜力，并引起了广泛的关注。考虑到这些代理将被整合到高风险领域，确保它们的可靠性和安全性至关重要。本文提出了一种基于Agent-Constitution的代理框架TrustAgent，特别关注改善LLM-based agent的安全性。所提出的框架通过三个战略组件严格遵守Agent Constitution：预规划策略，在计划生成之前向模型注入安全知识；计划中策略，在计划生成过程中增强安全性；计划后策略，通过计划后检查确保安全。我们的实验结果表明，所提出的框架可以通过在计划过程中识别和减轻潜在危险，有效地提高LLM代理在多个领域的安全性。进一步的分析表明，该框架不仅提高了安全性，还提高了代理的帮助性。此外，我们强调了LLM推理能力在遵守Constitution方面的重要性。本文阐明了如何确保LLM-based agent安全地整合到以人为中心的环境中。数据和代码可在https://github.com/agiresearch/TrustAgent获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提高LLM代理的安全性，解决其在高风险领域中应用时可能出现的安全问题。
关键思路

论文提出了一种基于代理宪法的代理框架TrustAgent，通过三个策略组件（预规划策略、规划中策略和后规划策略）严格遵守代理宪法，从而提高LLM代理的安全性。
其它亮点

实验结果表明，TrustAgent框架可以有效地提高LLM代理在多个领域中的安全性，并且同时提高了代理的帮助性。论文提供了数据和代码，并强调LLM推理能力在遵守宪法方面的重要性。
相关研究

最近的相关研究包括基于代理的安全性方法和LLM代理的其他应用。

TrustAgent: Towards Safe and Trustworthy LLM-based Agents through Agent Constitution

提问交流

提问交流