InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback

2024年07月16日
  • 简介
    在现实应用中部署基于LLM的代理需要具备抵御风险或不可逆错误的鲁棒性,然而,现有的研究缺乏对LLM代理进行推理轨迹预先评估的关注,这导致确保安全和可靠运行的空白。为了探索更好的解决方案,本文引入了InferAct,一种新颖的方法,利用LLM的心理理论能力来主动检测潜在错误,以防止关键操作(例如自动在线交易或网购中的“立即购买”)的执行。InferAct还能够集成人类反馈,以防止不可逆风险并增强演员代理的决策过程。在三个广泛使用的任务上进行的实验证明了InferAct的有效性。所提出的解决方案提供了一种新颖的方法和具体的贡献,以开发LLM代理,可以安全地部署在涉及关键决策的不同环境中。
  • 作者讲解
  • 图表
  • 解决问题
    如何保证LLM代理在关键决策中的安全性和可靠性?
  • 关键思路
    使用LLM的Theory-of-Mind能力来预测潜在错误并集成人类反馈,提高代理的决策过程。
  • 其它亮点
    论文提出了InferAct方法,通过预测错误来保证LLM代理的安全性和可靠性,并在三个常用任务上进行了实验验证。
  • 相关研究
    近年来,也有其他研究关注LLM代理的安全性和可靠性,如《Safe Reinforcement Learning via Curriculum Induction》和《Safe Exploration in Continuous Action Spaces》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问