- 简介大语言模型(LLMs)展现出了令人印象深刻的推理能力,尤其是在通过明确的思维链(CoT)推理进行引导时,后者通过语言化中间步骤来实现推理过程的可视化。尽管CoT提高了模型的可解释性和准确性,但它依赖于自然语言推理,这在一定程度上限制了模型的表达带宽。为此,潜在推理(latent reasoning)通过完全在模型的连续隐藏状态中执行多步推理,绕过了对逐词(token-level)监督的需求,从而缓解了这一瓶颈。为了推动潜在推理领域的研究进展,本文对这一新兴领域进行了全面综述。我们首先探讨了神经网络层作为推理计算基础的重要作用,并强调其层级表示如何支持复杂的变换过程。接着,我们分析了多种潜在推理方法,包括基于激活的递归机制、隐藏状态传播以及通过微调策略将显式推理路径压缩或内化的方法。最后,我们讨论了一些先进的范式,例如通过掩码扩散模型实现的无限深度潜在推理,它能够支持全局一致且可逆的推理过程。通过整合这些视角,我们旨在厘清潜在推理的概念框架,并为大语言模型认知前沿的研究指明未来方向。此外,我们还在GitHub上建立了一个配套仓库,用于收集最新的相关论文和项目资源,地址为:https://github.com/multimodal-art-projection/LatentCoT-Horizon/。
- 图表
- 解决问题论文旨在探索和推动潜变量推理(Latent Reasoning)的发展,以克服当前基于自然语言的思维链(Chain-of-Thought, CoT)推理在表达能力上的瓶颈。传统CoT依赖于显式的语言生成过程,限制了模型推理效率与表达带宽。这是一个相对较新的研究方向,特别是在大型语言模型(LLMs)认知前沿领域。
- 关键思路论文提出将多步推理过程完全置于模型的连续隐藏状态中进行,而非依赖于逐token的语言生成。这种方法消除了对语言层面监督的依赖,并利用神经网络层作为推理的计算基础。相较于传统的CoT,该方法提升了模型推理的全局一致性、可逆性以及深度延展性,引入了如基于掩码扩散模型的无限深度推理等新范式。
- 其它亮点{系统性地综述了潜变量推理的理论基础与实现路径,包括激活递归、隐藏状态传播、内部化显式推理轨迹等策略,提出了基于扩散模型的无限深度潜变量推理,支持更复杂和一致的推理流程,分析了神经网络层次化表示如何支撑复杂推理转换,提供了GitHub资源库链接,持续更新相关论文和代码资源,便于后续研究}
- {"Self-Consistency as a Powerful Prior for Zero-Shot Reasoning in Large Language Models","Deep Learning with Latent Representations: A Unified Framework for Inference and Learning","Infinite-Horizon Transformers via Implicit State Space Modeling","Reasoning with Diffusion: Generative Models for Multi-step Logical Deduction","Latent Thinking: Compressing Chain-of-Thought into Hidden States of LLMs"}
沙发等你来抢
去评论
评论
沙发等你来抢