Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

向作者提问

NEW

简介

思维链（Chain-of-Thought，CoT）提示已被证明可以提升大语言模型（LLM）在各种任务上的表现。采用这种方法时，大语言模型似乎会在给出答案之前生成类似人类的推理步骤（即CoT推理），这常常让人误以为它们进行了深入的推理过程。然而，一些初步的研究发现表明，CoT推理可能并不如表面看起来那么深入，这促使我们进一步探索。本文中，我们通过数据分布的视角来研究CoT推理，探讨其是否反映了模型从训练数据中学到的一种结构化的归纳偏好，从而使其能够根据条件生成类似训练时的推理路径。因此，其效果从根本上受限于训练数据与测试问题之间的分布差异程度。从这一视角出发，我们从任务、长度和格式三个维度对CoT推理进行了剖析。为了分别研究这三个维度，我们设计了一个隔离且可控的环境——DataAlchemy，从头训练大语言模型，并在各种数据分布条件下对其进行系统性探测。我们的研究结果表明，CoT推理是一种脆弱的“幻象”，一旦超出训练数据的分布范围，这种推理能力便会消失。本研究深化了我们对CoT推理为何以及何时会失效的理解，强调了实现真正且具有泛化能力的推理仍然是一个尚未解决的挑战。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文试图验证一个假设：尽管Chain-of-Thought（CoT）提示技术在许多任务中提升了大语言模型（LLM）的表现，但这种推理能力可能比看起来更表面化。论文研究了CoT推理是否反映了模型在训练数据分布中学到的结构化归纳偏置，以及当测试数据分布与训练数据存在差异时，CoT推理的有效性是否会下降。这是一个相对较新的问题，尤其是在LLM泛化能力和真正推理能力的边界方面。
关键思路

论文的核心思想是通过数据分布的视角来研究CoT推理，认为CoT推理路径的生成依赖于模型在训练过程中对特定分布的“记忆”或“模仿”，而不是真正的推理能力。因此，当面对分布外（out-of-distribution）任务、长度或格式时，CoT推理的效果会显著下降。这种思路不同于以往对CoT的研究，后者通常假设其具备某种“类人推理”能力。
其它亮点

1. 提出DataAlchemy，一个可控的训练和评估环境，用于从头训练LLM，并在不同分布条件下系统性地测试其CoT推理能力。 2. 从任务、长度、格式三个维度对CoT推理进行解构，发现当测试分布与训练分布不一致时，CoT推理的效果显著下降。 3. 实验表明，CoT推理更像是一种基于训练数据分布的“幻觉式模仿”，而非真正的推理。 4. 强调了当前LLM推理能力的局限性，并指出实现真正通用推理的挑战。 5. 论文可能为未来研究提供新的方向，例如如何增强模型对分布外推理的适应能力。
相关研究

1. Wei et al., Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, NeurIPS 2022. 2. Wang et al., Self-Consistency Improves Chain-of-Thought Reasoning in Language Models, ICLR 2023. 3. Kojima et al., Large Language Models Are Few-Shot Learners, NeurIPS 2020. 4. Zhou et al., Least-to-Most Prompting Enables Complex Reasoning in Large Language Models, ICLR 2023. 5. Huang et al., Towards Understanding Chain-of-Thought in Large Language Models, ICLR 2023. 6. Liu et al., On the Inductive Bias of Chain-of-Thought Reasoning in Language Models, ACL 2023.

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问