Training Large Language Models to Reason in a Continuous Latent Space

向作者提问

NEW

简介

大型语言模型（LLMs）的推理过程通常局限于“语言空间”，在这个空间中，它们通常通过一个思维链（CoT）来表达推理过程，以解决复杂的推理问题。然而，我们认为语言空间可能并不总是最适合进行推理。例如，大多数词汇标记主要用于文本连贯性，并非推理所必需，而一些关键标记则需要复杂的规划，给LLMs带来了巨大挑战。为了探索在不受限的潜在空间中而不是使用自然语言进行推理的可能性，我们引入了一种新的范式——Coconut（连续思维链）。我们利用LLM的最后一层隐藏状态作为推理状态的表示（称为“连续思维”）。与其将这一状态解码为词汇标记，我们将它直接作为后续输入嵌入反馈给LLM，保持在连续空间中。实验表明，Coconut可以在多个推理任务上有效增强LLM的能力。这种新颖的潜在推理范式导致了新兴的高级推理模式：连续思维可以编码多个备选的下一步推理步骤，使模型能够执行广度优先搜索（BFS）来解决问题，而不会像CoT那样过早地锁定单一确定路径。在某些需要大量回溯规划的逻辑推理任务中，Coconut的表现优于CoT，且在推理过程中使用的思维标记更少。这些发现展示了潜在推理的潜力，并为未来的研究提供了宝贵的见解。
作者讲解·3
- 讲解视频
- 相关报道(3)
图表
解决问题

论文试图解决大型语言模型（LLMs）在复杂推理任务中的局限性问题，尤其是语言空间中的表达和推理效率问题。这并不是一个全新的问题，但论文提出了一种新的方法来改进这一过程。
关键思路

论文的关键思路是引入了一种称为Coconut（Chain of Continuous Thought）的新范式，利用LLM的最后一个隐藏状态作为连续的推理状态，而不是将其解码为自然语言中的词元。这种方法允许模型在连续空间中直接进行推理，从而避免了语言表达的冗余性和复杂性。
其它亮点

论文通过实验展示了Coconut在多个推理任务上的优越性能，尤其是在需要大量回溯规划的任务中。实验设计包括与传统链式思维（CoT）的对比，使用了多个逻辑推理数据集，并且显示Coconut在推理过程中使用的思考词元更少。此外，论文指出Coconut能够编码多个可能的下一步推理步骤，使模型能够执行广度优先搜索（BFS），而不仅仅是单一线性的推理路径。目前，论文没有提及开源代码，但这些发现为未来的潜在研究提供了有价值的见解。
相关研究

最近在这个领域，相关的研究包括：1.《Reinforcement Learning for Text Generation》：探讨了强化学习在文本生成中的应用。2.《Neural Symbolic Machines for Program Synthesis》：结合神经网络和符号推理来合成程序。3.《Latent Variable Models for Neural Machine Translation》：利用隐变量模型改进神经机器翻译。4.《Hierarchical Reasoning with Graph Neural Networks》：利用图神经网络进行层次化推理。这些研究都从不同角度探索了如何改进模型的推理能力。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问