- 简介本文介绍了一种基于代理人宪法的代理人框架——TrustAgent,旨在提高基于LLM的代理人的安全性。尽管基于LLM的代理人已经引起了相当大的关注,但其可信度仍然是一个未被充分探讨的领域。由于代理人可以直接与物理环境交互,因此它们的可靠性和安全性至关重要。该框架包括三个策略:预先规划策略,通过在规划生成之前注入安全知识来提高模型的安全性;规划中策略,在规划生成期间加强安全性;后规划策略,通过后规划检查来确保安全。通过实验分析,我们展示了这些方法如何有效地提高LLM代理人的安全性,识别和防止潜在危险。此外,我们还探讨了安全性和可帮助性之间的复杂关系,以及模型推理能力和其作为安全代理人的有效性之间的关系。本文强调了将安全意识和可信度整合到LLM代理人的设计和部署中的必要性,不仅可以提高其性能,还可以确保其在以人为中心的环境中的负责任整合。数据和代码可在https://github.com/agiresearch/TrustAgent上获取。
- 图表
- 解决问题本论文旨在解决LLM型智能体的可靠性和安全性问题,提出了一个基于代理人宪法的智能体框架TrustAgent,并探讨了安全性与可靠性、推理能力与安全性之间的关系。
- 关键思路TrustAgent框架包括三个策略:预规划策略、规划中策略和规划后策略,通过注入安全知识、加强规划过程中的安全性和规划后检查等方式提高LLM型智能体的安全性。
- 其它亮点论文通过实验分析展示了TrustAgent框架的有效性,并强调了在设计和部署LLM型智能体时将安全意识和可靠性融入其中的重要性。论文提供了数据和代码,可供进一步研究使用。
- 与本论文相关的研究包括:LLM型智能体的可靠性和安全性问题、智能体框架的设计和优化、智能体与人类交互的方式等。相关论文包括《A Survey of Trust in Computer Science and the Semantic Web》、《A Survey of Agent-Oriented Methodologies》等。
沙发等你来抢
去评论
评论
沙发等你来抢