Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought

向作者提问

NEW

简介

大型语言模型（LLMs）在许多应用中展现了卓越的性能，包括通过链式思维（Chain-of-Thoughts, CoTs）技术解决复杂的推理问题，该技术会在回答问题之前生成“思维标记”。尽管现有的理论研究已经证明离散型思维标记能够提升LLMs的能力，但关于连续型链式思维（Continuous CoTs）的工作尚缺乏对其为何在多种推理任务（例如有向图可达性问题）中优于离散型方法的理论解释。有向图可达性是一个基础的图推理问题，涵盖了众多实际领域应用的特例。在本文中，我们证明了具有 $D$ 步连续型链式思维的两层Transformer可以解决有向图可达性问题，其中 $D$ 是图的直径；而目前最佳的常数深度、基于离散型链式思维的Transformer需要 $O(n^2)$ 的解码步骤（$n$ 是顶点的数量，且 $D < n$）。在我们的构造中，每个连续型思维向量是一种叠加状态，能够同时编码多个搜索前沿（即并行广度优先搜索，BFS），而离散型链式思维必须从叠加状态中选择一条单一路径，这导致顺序搜索不仅需要更多步骤，还可能陷入局部最优解。此外，我们进行了广泛的实验验证，结果表明我们的理论构造与通过训练动态获得的经验解高度一致。值得注意的是，在训练连续型链式思维时，多个搜索前沿的叠加状态编码会自动出现，无需显式的监督来引导模型同时探索多条路径。
作者讲解·2
- 讲解视频(1)
- 相关报道(1)
图表
解决问题

论文试图解决的问题是如何通过连续链式思维（Continuous Chain-of-Thoughts, CoTs）技术提升大语言模型在图推理任务中的性能，特别是针对有向图可达性问题。这是一个新的研究方向，聚焦于理论解释为何连续CoTs优于离散CoTs。
关键思路

论文提出了一种基于两层Transformer架构的连续CoTs方法，能够通过D步（D为图直径）解决有向图可达性问题。与需要O(n^2)解码步骤的传统离散CoTs方法相比，连续CoTs利用超级位置状态同时编码多个搜索前沿，实现了并行广度优先搜索（BFS）。这一思路的核心创新在于避免了离散CoTs中逐路径搜索的低效性，并且无需显式监督即可自动学习多路径探索。
其它亮点

论文通过严格的理论证明和实验验证展示了连续CoTs的有效性。实验设计包括对训练动态的分析，表明模型可以自发地学习到超级位置状态来表示多路径搜索。此外，该方法不需要额外的监督信号，具有较强的自适应能力。虽然未提及具体数据集或开源代码，但其理论框架和实验结果为后续研究提供了重要参考。未来值得深入研究的方向包括将此方法扩展到更复杂的图结构和实际应用领域。
相关研究

最近的相关研究包括：1) 离散CoTs在逻辑推理和数学问题求解中的应用；2) Transformer在图神经网络中的改进，如Graph Transformers；3) 连续表示学习在自然语言处理中的进展。相关论文标题例如：'Chain of Thought Prompting Elicits Reasoning in Large Language Models', 'Transformers are Graph Neural Networks', 'Superposition States for Efficient Search in Neural Networks'.

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问