- 简介DeepSeek-R1 的成功凸显了强化学习(RL)在提升大型语言模型(LLMs)推理能力方面的重要作用。在这项工作中,我们介绍了 Skywork-OR1,这是一种针对长链思维(Chain-of-Thought, CoT)模型的有效且可扩展的强化学习实现方法。基于 DeepSeek-R1-Distill 模型系列,我们的强化学习方法实现了显著的性能提升,在 AIME24、AIME25 和 LiveCodeBench 上,32B 模型的平均准确率从 57.8% 提高到 72.8%(+15.0%),7B 模型的平均准确率从 43.6% 提高到 57.5%(+13.9%)。我们的 Skywork-OR1-32B 模型在 AIME24 和 AIME25 基准测试中超越了 DeepSeek-R1 和通义千问 Qwen3-32B,同时在 LiveCodeBench 上取得了相当的结果。Skywork-OR1-7B 和 Skywork-OR1-Math-7B 模型在与之规模相近的模型中展现了强大的推理能力。我们对训练流程的核心组件进行了全面的消融实验,以验证其有效性。此外,我们深入研究了熵崩溃现象,识别出影响熵动态变化的关键因素,并证明缓解过早的熵崩溃对于提高测试性能至关重要。为了支持社区研究,我们完全开源了模型权重、训练代码和训练数据集。
- 图表
- 解决问题该论文试图通过强化学习(RL)方法提升大型语言模型(LLMs)在长链推理任务中的表现。这是一个持续优化的问题,但针对长链推理任务的专门优化仍具有挑战性,尤其是在防止模型过早收敛和提高泛化能力方面。
- 关键思路论文提出了一种名为Skywork-OR1的可扩展RL方法,基于DeepSeek-R1-Distill模型系列进行训练。其关键思路是通过精心设计的RL训练流程来增强模型在复杂推理任务中的表现,并通过缓解熵崩溃现象(Entropy Collapse)进一步提升模型性能。这种方法相较于传统的监督微调或简单的RL实现更具针对性,能够显著提升模型在AIME24、AIME25和LiveCodeBench等基准测试中的表现。
- 其它亮点实验结果表明,Skywork-OR1-32B模型在AIME24和AIME25上超越了DeepSeek-R1和Qwen3-32B,同时在LiveCodeBench上表现出可比的结果。此外,7B版本的模型也展现了强大的推理能力。论文进行了全面的消融研究,揭示了训练管道中各组件的有效性,并深入分析了熵崩溃现象及其对模型性能的影响。值得注意的是,作者开源了模型权重、训练代码和数据集,为社区提供了宝贵的资源以促进进一步研究。
- 近年来,许多研究关注于通过RL提升LLMs的能力,例如DeepSeek-R1、Qwen系列、以及Google的PaLM系列工作。其他相关研究包括:1) “Reinforcement Learning from Human Feedback”(OpenAI, 2022),探讨了如何利用人类反馈优化模型;2) “Chain of Thought Prompting Elicits Reasoning in Large Language Models”(Stanford, 2022),研究了提示工程对推理能力的影响;3) “Large Language Models Exhibit Chain-of-Thought Reasoning”(UC Berkeley, 2023),分析了LLMs在复杂推理任务中的行为模式。这些研究共同推动了LLMs在高级推理任务中的应用。
沙发等你来抢
去评论
评论
沙发等你来抢