Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning

向作者提问

NEW

简介

大语言模型（LLMs），尤其是具备推理能力的模型，会生成较长的思维链（Chain-of-Thought, CoT）推理过程，其中往往显式地权衡未来可能的结果。然而，这种权衡是否构成真正意义上的规划、其内在结构如何、以及哪些特征实际驱动了模型的表现，目前仍缺乏深入理解。在本研究中，我们提出一种新方法，用于刻画大语言模型的规划行为：以“四子连珠”（four-in-a-row）棋类游戏为任务场景，从模型生成的推理轨迹中提取并量化其隐含的搜索树。通过在所提取的搜索树上拟合计算模型，我们系统刻画了规划的结构特征及其对落子决策的影响机制。研究发现：大语言模型的搜索深度浅于人类；其表现主要由搜索的广度（即每层展开的节点数量）而非深度（即搜索层数）所预测。尤为引人注目的是，尽管大语言模型在推理轨迹中确实扩展了深层节点，但其最终落子选择却最符合一种“短视模型”（myopic model）——该模型完全忽略所有深层节点，仅依赖最表层的信息作出判断。进一步开展因果干预实验，即有选择性地剪枝思维链中的若干段落，结果同样表明：落子决策主要由浅层节点驱动，而非深层节点。这些模式与人类规划形成鲜明对比——人类的表现恰恰主要依赖于深层搜索。综上，我们的发现揭示了大语言模型与人类规划之间的一项关键差异：人类的专业能力源于更深层次的前瞻性搜索，而大语言模型虽能生成深层推理内容，却并未据此采取行动。这一“行为与表征的分离”现象，为推动大语言模型规划能力与人类规划方式的对齐提供了明确、有针对性的指导方向。更广泛而言，本研究所提出的分析框架具有良好的可迁移性，可推广应用于各类策略性任务领域，以系统解析大语言模型规划行为的内在结构。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决的核心问题是：大型语言模型（LLMs）在链式推理（CoT）中展现的‘未来结果 deliberation’是否构成真正意义上的规划（planning），其搜索结构如何量化表征，以及该结构如何实际驱动决策——尤其关注LLM规划与人类规划的本质差异。这不是单纯验证性能的问题，而是首次系统性地将LLM的CoT视为可提取、可建模的搜索树，并检验‘深度搜索是否被用于决策’这一关键认知假设。
关键思路

提出一种新颖的‘搜索树提取框架’，将四连珠（four-in-a-row）游戏中LLM生成的自然语言CoT推理轨迹自动解析为显式的搜索树（含节点、分支、估值），并拟合计算模型（如 myopic vs. depth-aware decision models）来反推决策机制；核心新意在于：不依赖模型内部权重或梯度，而仅从外部可观测的CoT文本中逆向工程规划结构，并通过因果干预（选择性CoT段落剪枝）验证各层节点对最终动作的因果贡献。
其它亮点

实验设计严谨：在统一规则下对比GPT-4、Claude、Gemini等主流LLMs与人类专家玩家的CoT轨迹；使用自建高质量四连珠CoT数据集（含人工标注的合法移动与推理层级）；发现LLM性能由搜索宽度（breadth）而非深度（depth）预测，且最优决策可被仅看1–2步的‘近视模型’完美解释；因果剪枝实验证实移除深层CoT段落几乎不影响选步准确性，颠覆‘深思考=好决策’直觉；代码与搜索树解析工具已开源；值得深入的方向包括：跨游戏泛化（如围棋/国际象棋）、CoT结构引导的规划对齐训练、以及‘表面深度’与‘实际决策浅度’的认知解耦机制建模。
相关研究

‘Thinking, Fast and Slow in LLMs’ (ACL 2023); ‘Large Language Models as Optimizers’ (ICLR 2024); ‘Process Supervision for LLMs’ (NeurIPS 2023); ‘Tree of Thoughts: Deliberate Problem Solving with Large Language Models’ (arXiv 2023); ‘Self-Refine: Iterative Refinement with Self-Feedback’ (ICML 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问