- 简介在真实环境中运作的代理程序面临的一个常见问题是,环境对它们的行动的响应可能是不确定的,并且通过噪声进行观察。这使得环境状态和完成任务的进展是潜在的。尽管LLM在各种基准测试中展示了出色的推理能力,但LLM是否能够建立潜在状态的估计并利用它们进行推理尚未得到明确研究。我们在自主UI代理的真实世界领域中研究了这个问题。我们确定,以零-shot方式适当地提示LLM可以形成文本空间中潜在状态的点估计,并在自主UI代理的背景下展示了以这种方式使用的LLM在推断各种潜在状态方面(如执行(与命令)操作和任务进展)上的准确性超过76%。使用公共和内部基准测试以及三种推理方法(零-shot,CoT-SC和ReAct),我们展示了明确估计和推理潜在状态的LLM驱动代理能够成功完成多达1.6倍的任务。
- 图表
- 解决问题研究LLM是否能够建立对潜在状态的估计并利用它们进行推理,以解决现实环境中智能代理面临的问题。
- 关键思路通过适当的提示,以零样本方式在文本空间中形成潜在状态的点估计,并证明LLM在推断各种方面的潜在状态方面准确率超过76%。使用三种推理方法,证明LLM-powered代理可以成功完成多达1.6倍于不使用LLM的代理的任务。
- 其它亮点实验设计了公共数据集和内部数据集,并使用三种推理方法进行实验,证明了LLM-powered代理的有效性。该论文的亮点在于使用LLM解决了现实环境中代理面临的问题,并且实现了更高的任务完成率。
- 最近的相关研究包括《Language Models as Knowledge Bases?》和《Transformers as Soft Reasoners over Language》等。
沙发等你来抢
去评论
评论
沙发等你来抢