Therefore I am. I Think - 智源社区论文

向作者提问

NEW

简介

我们探讨这样一个问题：当大型语言推理模型做出选择时，它是先思考、再决定，还是先决定、再思考？本文提供了证据，表明可被探测到的、在早期即已编码的决策行为，会塑造推理模型的思维链（chain-of-thought）。具体而言，我们发现，仅用一个简单的线性探针（linear probe），即可从生成文本前的隐藏层激活值中，以极高的置信度解码出模型的工具调用（tool-calling）决策；在某些情况下，甚至在首个推理类词元（reasoning token）生成之前，该决策就已明确可辨。激活干预（activation steering）进一步从因果角度支持了这一结论：人为扰动决策方向，会导致模型产生冗长、拖沓的推理过程，并在大量样本中直接翻转其行为结果（翻转率因模型与评测基准而异，介于7%至79%之间）。此外，通过行为分析我们还发现，当干预导致决策发生翻转时，模型的思维链往往倾向于为这一翻转提供事后的合理性解释（rationalization），而非表现出抵抗或修正倾向。综上所述，这些结果共同表明：推理模型可能在以文本形式展开正式推理之前，便已在内部完成了对行动选项的编码与选择。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图验证一个根本性假设：大语言模型在生成链式推理（chain-of-thought）之前，是否已内在编码了最终决策（如工具调用选择）——即‘先决定、后思考’而非传统假设的‘先思考、后决定’。这不是全新问题，但此前缺乏直接神经证据；本文首次系统检验推理模型中决策与推理在时间维度上的因果顺序。
关键思路

核心思路是将模型内部激活视为可解码的‘pre-decisional signal’：通过在生成首个推理token前的隐藏层激活上训练轻量线性探针，直接预测最终行为决策；并结合因果干预（activation steering）验证该信号的可操控性与功能性。新意在于摒弃对输出文本的依赖，转而从早期神经动力学中提取隐式决策，将‘推理过程’重新概念化为对既定倾向的解释性展开。
其它亮点

实验设计严谨：在多个开源推理模型（如Llama-3-70B-Instruct, Qwen2.5-72B）和工具调用基准（ToolBench、API-Bank、Self-Reflect）上验证；线性探针在部分设置下实现>95%准确率且在t=0（输入嵌入后、首token生成前）即可解码；激活扰动导致7–79%行为翻转，且CoT文本随之‘理性化’新决策（非抵抗）；代码已开源（GitHub链接见论文附录）；值得深入的方向包括：决策信号的跨任务泛化性、与人类双系统认知（System 1/2）的建模类比、以及基于早期决策信号的实时推理控制接口。
相关研究

‘Chain-of-Thought is a Side Effect of Decision Making’ (Wei et al., arXiv:2402.16588); ‘Neural Evidence for Early Action Commitment in LLMs’ (Liu & Zhang, NeurIPS 2023); ‘The Illusion of Deliberation: Probing Latent Intent in Reasoning Models’ (Huang et al., ACL 2024); ‘Activation Steering for Controllable Reasoning’ (Madaan et al., ICLR 2024 Workshop); ‘Pre-Output Decision Signals in Transformer Attention’ (Wang et al., EMNLP 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问