- 简介解决复杂的规划问题需要大型语言模型(LLMs)明确地建模状态转换,以避免违反规则、遵守约束并确保最优性——这一任务因自然语言的固有模糊性而受到阻碍。为了克服这种模糊性,规划领域定义语言(PDDL)被用作一种规划抽象工具,能够实现精确和正式的状态描述。通过PDDL,我们可以生成一个符号化的世界模型,在该模型中,经典的搜索算法(如A*算法)可以无缝应用以找到最优计划。然而,由于缺乏PDDL训练数据,直接使用当前的LLMs生成PDDL域仍然是一个未解决的挑战。为了解决这一挑战,我们提出扩大LLMs在测试时的计算规模,以增强其PDDL推理能力,从而生成高质量的PDDL域。具体来说,我们引入了一种简单而有效的算法,首先采用最佳N选一采样方法来提高初始解决方案的质量,然后通过详细的机器学习语言化进一步优化解决方案。我们的方法在生成PDDL域方面显著优于o1-mini,在两个任务(即从自然语言描述或PDDL问题生成PDDL域)上实现了超过50%的成功率。这不需要额外的训练。通过利用PDDL作为状态抽象,我们的方法能够在几乎所有竞赛级别的规划任务中超越当前最先进的方法。
- 图表
- 解决问题论文试图解决大型语言模型(LLMs)在生成Planning Domain Definition Language (PDDL)领域描述时遇到的挑战,特别是在缺乏PDDL训练数据的情况下。这是一个相对新颖的问题,因为直接从自然语言描述生成PDDL域是当前研究中的一个开放性挑战。
- 关键思路关键思路是通过扩展LLMs的测试时计算能力来增强其PDDL推理能力,从而生成高质量的PDDL域。具体方法包括使用Best-of-N采样以提高初始解决方案的质量,并通过细化的机器学习进行进一步优化。这种方法不需要额外的训练,而是通过改进现有模型的推理过程来实现。
- 其它亮点该研究显著提升了PDDL域生成的成功率,在两个任务上超过了50%的成功率。实验设计严谨,涵盖了从自然语言描述生成PDDL域和从PDDL问题生成PDDL域的任务。虽然没有提及具体的开源代码或数据集,但研究结果表明了在几乎所有的竞赛级别规划任务中都优于当前最先进的方法。未来值得继续深入研究的方向包括如何进一步优化算法效率以及探索更多应用场景。
- 最近在这个领域的相关研究还包括:1. 使用深度学习技术直接从文本生成PDDL描述;2. 结合强化学习和符号推理来改进规划问题的解决;3. 利用预训练的语言模型进行规划任务的迁移学习。一些相关的研究论文标题如《Deep Learning for Automated Planning: A Survey》、《Reinforcement Learning and Symbolic Reasoning for Improved Planning》等。
沙发等你来抢
去评论
评论
沙发等你来抢