- 简介最近,直接使用大型语言模型(LLM)作为代理模型来执行交互式规划任务的努力已经显示出了可观的结果。然而,尽管它们取得了成就,但它们仍然在全局规划中挣扎于无脑的试错,并在局部规划中生成幻觉动作,这是由于它们对“真实”物理世界的理解不足。本文引入参数化世界知识模型(WKM)来模仿人类的心理世界知识模型,该模型在任务之前提供全局先验知识并在任务期间维护局部动态知识,以便于代理规划。具体而言,我们引导代理模型从专家和采样轨迹中自我合成知识,然后开发WKM,提供先验任务知识以指导全局规划和动态状态知识以协助局部规划。在三个复杂的真实世界模拟数据集上,使用三种最先进的开源LLM,即Mistral-7B、Gemma-7B和Llama-3-8B进行实验,结果表明,与各种强基线相比,我们的方法可以实现更优越的性能。此外,我们分析表明,我们的WKM可以有效地缓解盲目的试错和幻觉动作问题,为代理对世界的理解提供了有力的支持。其他有趣的发现包括:1)我们的实例级任务知识可以更好地推广到未见过的任务,2)弱WKM可以指导强代理模型规划,3)统一的WKM训练具有进一步发展的潜力。代码可在https://github.com/zjunlp/WKM获得。
-
- 图表
- 解决问题论文试图解决使用大型语言模型进行交互式规划任务时遇到的问题,如全局规划中的盲目尝试和本地规划中的幻觉行为。
- 关键思路论文提出了参数化世界知识模型(WKM)来帮助代理规划。WKM从专家和样本轨迹中自我合成知识,提供先验任务知识来指导全局规划,提供动态状态知识来帮助本地规划。
- 其它亮点论文在三个复杂的真实世界模拟数据集上使用三种最先进的开源LLMs进行实验,证明了该方法相对于各种强基线具有优越性能。实验设计合理,代码开源。此外,论文还发现了一些有趣的结果,如实例级任务知识可以更好地推广到未见过的任务,弱WKM可以指导强代理模型规划,统一的WKM训练具有进一步发展的潜力。
- 最近的相关研究包括使用LLMs进行规划任务的其他尝试,如DALL-E和GPT-3,以及使用其他方法进行规划的研究,如强化学习和符号规划。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流