- 简介大语言模型(LLMs),尤其是具备推理能力的模型,会生成较长的思维链(Chain-of-Thought, CoT)推理过程,其中往往显式地权衡未来可能的结果。然而,这种权衡是否构成真正意义上的规划、其内在结构如何、以及哪些特征实际驱动了模型的表现,目前仍缺乏深入理解。在本研究中,我们提出一种新方法,用于刻画大语言模型的规划行为:以“四子连珠”(four-in-a-row)棋类游戏为任务场景,从模型生成的推理轨迹中提取并量化其隐含的搜索树。通过在所提取的搜索树上拟合计算模型,我们系统刻画了规划的结构特征及其对落子决策的影响机制。研究发现:大语言模型的搜索深度浅于人类;其表现主要由搜索的广度(即每层展开的节点数量)而非深度(即搜索层数)所预测。尤为引人注目的是,尽管大语言模型在推理轨迹中确实扩展了深层节点,但其最终落子选择却最符合一种“短视模型”(myopic model)——该模型完全忽略所有深层节点,仅依赖最表层的信息作出判断。进一步开展因果干预实验,即有选择性地剪枝思维链中的若干段落,结果同样表明:落子决策主要由浅层节点驱动,而非深层节点。这些模式与人类规划形成鲜明对比——人类的表现恰恰主要依赖于深层搜索。综上,我们的发现揭示了大语言模型与人类规划之间的一项关键差异:人类的专业能力源于更深层次的前瞻性搜索,而大语言模型虽能生成深层推理内容,却并未据此采取行动。这一“行为与表征的分离”现象,为推动大语言模型规划能力与人类规划方式的对齐提供了明确、有针对性的指导方向。更广泛而言,本研究所提出的分析框架具有良好的可迁移性,可推广应用于各类策略性任务领域,以系统解析大语言模型规划行为的内在结构。
-
- 图表
- 解决问题论文试图解决的核心问题是:大型语言模型(LLMs)在链式推理(CoT)中展现的‘未来结果 deliberation’是否构成真正意义上的规划(planning),其搜索结构如何量化表征,以及该结构如何实际驱动决策——尤其关注LLM规划与人类规划的本质差异。这不是单纯验证性能的问题,而是首次系统性地将LLM的CoT视为可提取、可建模的搜索树,并检验‘深度搜索是否被用于决策’这一关键认知假设。
- 关键思路提出一种新颖的‘搜索树提取框架’,将四连珠(four-in-a-row)游戏中LLM生成的自然语言CoT推理轨迹自动解析为显式的搜索树(含节点、分支、估值),并拟合计算模型(如 myopic vs. depth-aware decision models)来反推决策机制;核心新意在于:不依赖模型内部权重或梯度,而仅从外部可观测的CoT文本中逆向工程规划结构,并通过因果干预(选择性CoT段落剪枝)验证各层节点对最终动作的因果贡献。
- 其它亮点实验设计严谨:在统一规则下对比GPT-4、Claude、Gemini等主流LLMs与人类专家玩家的CoT轨迹;使用自建高质量四连珠CoT数据集(含人工标注的合法移动与推理层级);发现LLM性能由搜索宽度(breadth)而非深度(depth)预测,且最优决策可被仅看1–2步的‘近视模型’完美解释;因果剪枝实验证实移除深层CoT段落几乎不影响选步准确性,颠覆‘深思考=好决策’直觉;代码与搜索树解析工具已开源;值得深入的方向包括:跨游戏泛化(如围棋/国际象棋)、CoT结构引导的规划对齐训练、以及‘表面深度’与‘实际决策浅度’的认知解耦机制建模。
- ‘Thinking, Fast and Slow in LLMs’ (ACL 2023); ‘Large Language Models as Optimizers’ (ICLR 2024); ‘Process Supervision for LLMs’ (NeurIPS 2023); ‘Tree of Thoughts: Deliberate Problem Solving with Large Language Models’ (arXiv 2023); ‘Self-Refine: Iterative Refinement with Self-Feedback’ (ICML 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流