Teaching LLMs to Plan: Logical Chain-of-Thought Instruction Tuning for Symbolic Planning

向作者提问

NEW

简介

大型语言模型（LLM）在多种任务中展现出令人印象深刻的能力，但在结构化符号规划方面仍存在局限性，尤其是在需要形式化表示的领域，例如规划域定义语言（PDDL）。本文提出了一种新颖的指令微调框架PDDL-Instruct，旨在通过逻辑性的思维链推理来增强大型语言模型的符号规划能力。我们的方法着重于教会模型使用明确的逻辑推理步骤，严谨地分析动作的适用性、状态转移以及计划的有效性。通过设计能够引导模型逐步进行精确逻辑推理的指令提示，使其判断在特定状态下哪些动作可以执行，我们使大型语言模型能够通过结构化的反思实现规划过程的自我纠正。该框架通过将规划过程分解为关于前提条件满足、效果应用和不变性保持的明确推理链条，系统性地培养模型的验证能力。在多个规划领域的实验结果表明，基于思维链推理并经过指令微调的模型在规划任务上表现显著更优，在标准基准测试中的规划准确率最高可达94%，相比基线模型绝对提升了66%。本研究弥合了大型语言模型通用推理能力与自动规划所需逻辑精确性之间的差距，为构建更优的人工智能规划系统提供了有前景的发展方向。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大型语言模型（LLMs）在结构化符号规划任务中表现有限的问题，尤其是在需要形式化表示（如PDDL）的规划领域。尽管LLMs在多种任务上表现出色，但在推理动作适用性、状态转移和计划有效性方面缺乏逻辑精确性。这是一个重要且尚未充分解决的问题，因为将LLM的通用推理能力与自动化规划所需的逻辑严谨性结合具有重要意义。
关键思路

提出PDDL-Instruct框架，通过指令微调结合逻辑链式思维（logical chain-of-thought）推理来增强LLMs的符号规划能力。关键创新在于设计引导模型进行显式逻辑推理的指令提示，使其能够逐步验证前提条件满足、效果应用和不变性保持，并实现自我修正的结构化反思，从而提升规划准确性。相比现有方法，该思路强调形式化逻辑推理过程的可解释性和可验证性，而非仅依赖隐式模式匹配。
其它亮点

实验在多个标准规划基准上进行，结果显示该方法规划准确率最高达94%，相比基线模型绝对提升66%。框架系统性地构建了模型的验证技能，具备良好的泛化能力。研究设计了专门的指令数据集以支持逻辑推理训练，虽未明确提及代码开源，但其方法论为后续工作提供了清晰路径。未来可深入探索该框架在复杂现实世界规划任务中的迁移能力，以及与其他规划求解器的集成。
相关研究

1. 'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models' by Wei et al. 2. 'Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents' by Huang et al. 3. 'Plan-and-Execute: Adaptive Control for Real-World Tasks with LLMs' by Cheng et al. 4. 'Formal Language Reasoning in LLMs: A Survey on Logic-Guided Neural Methods' by Saha et al.

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问