InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback

简介

在现实应用中部署基于LLM的代理需要具备抵御风险或不可逆错误的鲁棒性，然而，现有的研究缺乏对LLM代理进行推理轨迹预先评估的关注，这导致确保安全和可靠运行的空白。为了探索更好的解决方案，本文引入了InferAct，一种新颖的方法，利用LLM的心理理论能力来主动检测潜在错误，以防止关键操作（例如自动在线交易或网购中的“立即购买”）的执行。InferAct还能够集成人类反馈，以防止不可逆风险并增强演员代理的决策过程。在三个广泛使用的任务上进行的实验证明了InferAct的有效性。所提出的解决方案提供了一种新颖的方法和具体的贡献，以开发LLM代理，可以安全地部署在涉及关键决策的不同环境中。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何保证LLM代理在关键决策中的安全性和可靠性？
关键思路

使用LLM的Theory-of-Mind能力来预测潜在错误并集成人类反馈，提高代理的决策过程。
其它亮点

论文提出了InferAct方法，通过预测错误来保证LLM代理的安全性和可靠性，并在三个常用任务上进行了实验验证。
相关研究

近年来，也有其他研究关注LLM代理的安全性和可靠性，如《Safe Reinforcement Learning via Curriculum Induction》和《Safe Exploration in Continuous Action Spaces》。

InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback

提问交流

提问交流