- 简介DeepSeek-R1-Zero 表明,大规模的强化学习 (RL) 可以在无需监督微调的情况下直接提升大语言模型 (LLM) 的推理能力。在这项工作中,我们通过对 R1-Zero 类型训练的两个核心组成部分——基础模型和强化学习——进行分析,对其进行了批判性考察。我们研究了多种基础模型,包括 DeepSeek-V3-Base,以了解预训练特征如何影响强化学习的表现。我们的分析发现,DeepSeek-V3-Base 已经表现出“顿悟时刻”(Aha moment),而通义千问 2.5 的基础模型即使没有提示模板也展现出强大的推理能力,这表明可能存在预训练偏差。此外,我们还发现了组相对策略优化 (GRPO) 中存在的一种优化偏差,这种偏差会在训练过程中人为增加响应长度,尤其是对于错误输出的情况。为了解决这一问题,我们提出了 Dr. GRPO,这是一种无偏的优化方法,它能够在保持推理性能的同时提高标记效率。基于这些见解,我们提供了一个极简的 R1-Zero 实现方案,该方案使用一个 70 亿参数的基础模型,在 AIME 2024 测试中达到了 43.3% 的准确率,创造了新的最佳水平。我们的代码可在以下地址获取:https://github.com/sail-sg/understand-r1-zero。
- 图表
- 解决问题论文试图通过分析R1-Zero训练方法的核心组成部分(基础模型和强化学习)来理解如何在无需监督微调的情况下提升大语言模型的推理能力。这是一个相对较新的问题,特别是针对强化学习对模型推理能力的直接影响。
- 关键思路关键思路是通过实验验证不同预训练模型的基础特性对强化学习效果的影响,并发现优化算法中的潜在偏差。与现有研究相比,该论文提出了Dr. GRPO这一改进的优化方法,解决了Group Relative Policy Optimization (GRPO)中可能导致输出冗长的问题,同时保持了推理性能。
- 其它亮点论文分析了多种基础模型(如DeepSeek-V3-Base和Qwen2.5),揭示了预训练阶段可能存在的偏差。此外,还提出了一种新的优化方法(Dr. GRPO),显著提升了模型在AIME 2024上的表现(7B参数模型达到43.3%准确率)。代码已开源至GitHub(https://github.com/sail-sg/understand-r1-zero),为后续研究提供了宝贵的资源。
- 相关研究包括DeepSeek-R1-Zero本身的工作、关于强化学习在自然语言处理中的应用(例如Proximal Policy Optimization, PPO在对话系统中的使用)、以及探讨预训练模型推理能力的研究(如Chain-of-Thought prompting)。其他类似工作包括《Reinforcement Learning from Human Feedback》和《Optimizing Language Models with RLHF for Code Generation》等。
沙发等你来抢
去评论
评论
沙发等你来抢