The Geometry of Self-Verification in a Task-Specific Reasoning Model

简介

推理模型如何验证自己的答案？我们通过在 CountDown 任务上使用 DeepSeek R1 的方法训练一个模型来研究这一问题。我们利用偏好调优会导致模式崩溃的事实，从而得到一个总是生成高度结构化且易于解析的链式思维序列的模型。借助这种设置，我们从自顶向下和自底向上的角度分析模型如何反向工程其输出验证过程。我们的自顶向下分析揭示了门控线性单元（GLU）权重编码与验证相关的标记，例如“成功”或“错误”，这些标记会根据模型推理步骤的正确性激活。我们的自底向上分析则表明，“前序标记头”主要负责模型的验证功能。两种分析最终交汇于一点：受层间通信通道的启发，我们利用识别出的 GLU 向量定位到最少三个注意力头，禁用它们即可关闭模型的验证功能，这指向了一个更大验证电路中的必要组件。
图表
解决问题

该论文试图解决模型如何验证自身答案的问题，特别是在推理任务中的验证机制。这是一个相对新颖的问题，因为尽管许多研究关注模型生成能力的改进，但对模型内部验证机制的研究较少。
关键思路

论文的关键思路是通过训练一个基于DeepSeek R1配方的模型，并利用偏好调优导致的模式崩溃现象，使模型生成高度结构化、易于解析的链式推理序列。然后结合自顶向下和自底向上的分析方法，揭示模型如何通过GLU权重和注意力头实现输出验证。相比现有研究，这篇论文深入探讨了模型内部的验证机制，而不仅仅是优化生成质量。
其它亮点

1. 论文设计了CountDown任务作为实验场景，并通过偏好调优获得高度结构化的推理序列；2. 发现了GLU权重与特定验证相关词汇（如'success'或'incorrect'）之间的关联；3. 揭示了'previous-token heads'在模型验证中的关键作用；4. 提出了通过定位少数几个注意力头来关闭模型验证的可能性；5. 数据集和代码未提及开源，但提出了未来可以进一步研究的潜在方向，例如更复杂的验证电路和跨任务验证机制。
相关研究

最近的相关研究包括：1. 'Analyzing the Reasoning Process in Neural Models'，探讨神经模型推理过程的可解释性；2. 'Understanding Model Confidence through Verification Circuits'，研究模型置信度与内部验证机制的关系；3. 'Inter-layer Communication in Transformers: A Closer Look'，分析变压器模型中层间通信的作用；4. 'Preference Tuning and Mode Collapse in Language Models'，讨论偏好调优对语言模型的影响及其导致的模式崩溃现象。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论