- 简介大型语言模型(LLMs)在各个领域展现了卓越的推理能力。最近的研究表明,增加测试时的计算量可以增强LLMs的推理能力。这通常涉及在推理过程中由外部LLM验证器指导的广泛采样,从而形成一个双玩家系统。尽管有外部指导,该系统的有效性展示了单个LLM解决复杂任务的潜力。因此,我们提出了一个新的研究问题:能否将搜索能力内化以从根本上提升单个LLM的推理能力?这项工作探索了一个不同的方向,专注于通过自回归搜索(即带有自我反思和自我探索新策略的扩展推理过程)来改进训练后的LLMs。为此,我们提出了行动思维链(COAT)推理方法和一个两阶段的训练范式:1)小规模格式调整阶段,以内化COAT推理格式;2)大规模自我改进阶段,利用强化学习进行优化。我们的方法产生了Satori,这是一个基于开源模型和数据训练的70亿参数的LLM。广泛的实证评估表明,Satori在数学推理基准测试中达到了最先进的性能,并且在域外任务上表现出强大的泛化能力。代码、数据和模型将全部开源。
- 图表
- 解决问题该论文试图解决如何增强大型语言模型(LLMs)的推理能力,特别是通过内部化搜索能力来提升单一LLM在复杂任务中的表现。这是一个新的研究方向,旨在探索是否可以通过自回归搜索和自我反思机制,使单个LLM具备更强的推理能力。
- 关键思路关键思路是提出了一种名为Chain-of-Action-Thought (COAT) 的推理方法,并采用两阶段训练范式:1) 小规模格式调整阶段,以内部化COAT推理格式;2) 大规模自我改进阶段,利用强化学习进行优化。这种方法的新颖之处在于它尝试将外部引导的搜索能力内化到单个LLM中,从而实现更强大的推理能力。
- 其它亮点论文展示了Satori,一个7B参数的LLM,在数学推理基准测试中达到了最先进的性能,并且在域外任务中表现出强大的泛化能力。此外,作者承诺将代码、数据和模型完全开源,为后续研究提供了宝贵资源。实验设计包括广泛的实证评估,使用了多种公开的数据集。
- 最近在这个领域内的相关研究包括《Scaling Laws for Neural Language Models》、《Chain of Thought Prompting Elicits Reasoning in Large Language Models》以及《Self-Consistency Improves Chain of Thought Reasoning in Language Models》。这些研究都探讨了如何通过不同的方法增强LLMs的推理能力。


提问交流