Demystifying Long Chain-of-Thought Reasoning in LLMs

简介

扩展推理计算能力可以增强大型语言模型（LLMs）的推理能力，通过长链思考（CoTs）实现诸如回溯和错误纠正等策略。强化学习（RL）已成为发展这些能力的关键方法，但长链思考出现的条件仍不清楚，并且RL训练需要仔细的设计选择。在这项研究中，我们系统地研究了长链思考推理的机制，确定了使模型能够生成长链思考轨迹的关键因素。通过广泛的监督微调（SFT）和强化学习实验，我们提出了四个主要发现：（1）虽然SFT不是绝对必要的，但它简化了训练并提高了效率；（2）推理能力往往随着训练计算资源的增加而出现，但其发展并不保证，因此奖励塑形对于稳定链思考长度的增长至关重要；（3）可验证奖励信号的扩展对RL至关重要。我们发现，利用带有过滤机制的嘈杂、从网络提取的解决方案显示出强大的潜力，特别是在处理分布外（OOD）任务如STEM推理时；（4）像错误纠正这样的核心能力在基础模型中固有存在，但通过RL有效地激励这些技能以应对复杂任务需要大量的计算资源，并且衡量这些能力的出现需要细致的方法。这些见解为优化训练策略以增强LLMs中的长链思考推理提供了实际指导。我们的代码可在以下链接获取：https://github.com/eddycmu/demystify-long-cot。
图表
解决问题

论文试图解决的问题是如何通过强化学习（RL）和监督微调（SFT）来优化大型语言模型（LLMs）中的长链条思考（CoTs）能力。这包括理解在什么条件下长链条思考能够出现，以及如何通过奖励塑造和其他机制稳定和增强这些能力。这个问题在当前领域中是相对较新的，因为它涉及到将RL应用于复杂的推理任务，而不仅仅是简单的预测或分类任务。
关键思路

关键思路是通过系统性的实验来识别影响LLMs生成长链条思考的关键因素，并通过SFT和RL的结合来优化这一过程。相比现有研究，这篇论文的新意在于：1) 系统地研究了SFT和RL在长链条思考中的作用；2) 强调了奖励信号的设计对于稳定和发展长链条思考的重要性；3) 探索了如何利用噪声较大的网络提取解决方案来进行有效的训练，特别是在处理OOD任务时。
其它亮点

论文的其他亮点包括：1) 通过广泛的实验验证了SFT虽然不是必须的，但可以简化训练并提高效率；2) 发现了增加计算资源有助于发展推理能力，但并非必然，因此奖励塑造至关重要；3) 提出了利用带过滤机制的网络提取解决方案来扩展可验证的奖励信号，这对于STEM推理等复杂任务特别有效；4) 指出基础模型已经具备一定的错误纠正能力，但要在复杂任务中有效激励这些技能需要大量的计算资源。此外，作者提供了开源代码，便于后续研究者复现实验结果并进一步探索。
相关研究

最近在这个领域中，相关的研究还包括：1) 使用预训练模型进行推理能力的微调（例如，《Chain of Thought Prompting Elicits Reasoning in Large Language Models》）；2) 探索不同的奖励设计对LLMs性能的影响（例如，《Reward Modeling for Language Model Alignment》）；3) 结合人类反馈进行模型优化（例如，《Training Language Models to Follow Instructions with Human Feedback》）。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论