- 简介自从人工智能的概念出现以来,规划一直是其核心追求之一,但早期的人工智能代理主要集中在受限制的环境中,因为许多需要实现人类水平规划的认知基础缺乏。最近,由大型语言模型(LLMs)驱动的语言代理展示了有趣的能力,例如工具使用和推理。这些语言代理能否在更复杂的环境中进行规划,超出了以前的人工智能代理的范围?为了推进这项调查,我们提出了TravelPlanner,一个新的规划基准,专注于旅行规划,这是一个常见的现实世界规划场景。它提供了一个丰富的沙盒环境,各种工具,可访问近400万条数据记录,以及1225个精心策划的规划意图和参考计划。全面的评估表明,目前的语言代理还不能处理如此复杂的规划任务,即使GPT-4的成功率也只有0.6%。语言代理很难保持任务的连续性,使用正确的工具收集信息或跟踪多个约束条件。然而,我们注意到,语言代理仅仅有可能解决这样一个复杂问题本身就是一个非平凡的进步。TravelPlanner为未来的语言代理提供了一个具有挑战性但有意义的测试平台。
-
- 图表
- 解决问题论文旨在探究自然语言模型在复杂旅行规划中的规划能力,提出了一个新的基准测试TravelPlanner,旨在评估当前自然语言模型的规划能力。
- 关键思路论文提出了一个新的基准测试TravelPlanner,提供了一个丰富的环境和大量数据记录,评估当前自然语言模型在复杂旅行规划中的规划能力。
- 其它亮点论文发现当前自然语言模型在复杂旅行规划中的规划能力仍然有限,即使是GPT-4的成功率也只有0.6%。然而,论文提供了一个具有挑战性和意义的测试平台TravelPlanner,为未来自然语言模型的规划能力提供了一个有意义的测试基础。论文还提供了1255个精心策划的意图和参考计划,供未来的研究使用。
- 最近的相关研究主要集中在自然语言模型的规划能力上,如基于大规模预训练模型的规划、基于强化学习的规划等。其中一些相关论文包括《Learning to Plan with Sparse Reward》、《Planning with Language via Conditional Neural Process》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流