我们推出了 Open-Reasoner-Zero,这是首个开源的大规模推理导向的强化学习训练实现,专注于可扩展性、简洁性和易用性。通过广泛的实验,我们证明了一种极简主义方法——使用经典的 PPO 算法结合 GAE(其中 $\lambda=1$, $\gamma=1$),以及简单的基于规则的奖励函数,无需任何 KL 正则化,就足以同时提升响应长度和基准性能,这一现象与在 DeepSeek-R1-Zero 中观察到的结果类似。使用与 DeepSeek-R1-Zero-Qwen-32B 相同的基础模型,我们的实现不仅在 AIME2024、MATH500 和 GPQA Diamond 基准测试中表现出更优的性能,还展现了显著的效率优势——仅需 DeepSeek-R1-Zero 流程十分之一的训练步数。秉承开源精神,我们公开了各种规模模型的源代码、参数设置、训练数据及模型权重。