- 简介先前的研究表明,连续思维链(continuous CoT)通过实现隐式的并行思考,能够提升大语言模型(LLM)的推理能力;后续的一项工作进一步提供了理论解释,证明配备连续CoT的两层Transformer可通过在连续思维中维持多个推理路径的叠加状态,高效解决有向图可达性问题。然而,这种叠加机制如何通过基于梯度的训练方法被自然习得,目前尚不清楚。为填补这一空白,我们针对有向图可达性问题,对一个简化的两层Transformer模型的训练动态进行了理论分析,揭示了叠加机制如何在两个训练阶段中逐步浮现:(i)思维生成阶段,该阶段以自回归方式扩展连续思维;(ii)预测阶段,将思维转化为最终答案。我们的分析表明,在使用连续思维进行训练的过程中,一种关键量——索引匹配logit(index-matching logit,反映模型局部搜索能力的强弱)——在温和假设下会先上升,随后保持有界。这种有界的索引匹配logit在推理过程中有效平衡了探索与利用:模型会利用局部问题结构识别出合理的搜索路径,并在无法确定哪条路径正确时,对多条此类路径赋予相近的权重以进行探索,从而形成叠加状态。我们通过实验追踪logit的增长过程,进一步验证了该理论。
-
- 图表
- 解决问题论文试图解决的问题是:在基于梯度的训练过程中,连续思维(continuous CoT)中出现的叠加机制是如何自然形成的。尽管先前工作表明连续CoT能通过隐式并行思维提升大语言模型的推理能力,并且理论证明其可在两层Transformer中高效解决有向图可达性问题,但该叠加机制如何通过标准训练过程学习仍不清楚。这是一个较新的问题,聚焦于理解推理机制背后的训练动态。
- 关键思路论文提出连续CoT的训练可分为两个阶段:思维生成阶段和预测阶段。关键思路是,通过分析简化版两层Transformer在有向图可达性任务上的训练动力学,发现‘索引匹配logit’这一量先增长后保持有界,从而在探索与利用之间取得平衡,促使模型对多个合理推理路径赋予可比权重,自然形成叠加状态。相比以往仅关注推理效果的工作,本文首次从训练动态角度解释了叠加机制的涌现。
- 其它亮点论文设计了可控实验追踪logit的增长趋势,验证了理论分析;使用了合成的有向图可达性任务作为基准,便于分析模型内部机制;虽然未明确提及开源代码,但其理论框架和实验设置为后续研究提供了清晰路径。值得关注的是,该工作为理解模型如何学习复杂推理结构提供了新视角,未来可扩展到更深层模型或真实世界推理任务。
- 1. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 2. Large Language Models as Optimizers 3. Emergent Abilities of Large Language Models 4. Transformer Feed-Forward Layers Are Key-Value Memories 5. On the Ability of Self-Attention Networks to Represent Arbitrary Functions
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流