DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI ,
Daya Guo ,
Dejian Yang ,
Haowei Zhang ,
Junxiao Song ,
Ruoyu Zhang ,
Runxin Xu ,
Qihao Zhu ,
Shirong Ma ,
Peiyi Wang ,
Xiao Bi ,
Xiaokang Zhang ,
Xingkai Yu ,
Yu Wu ,
Z. F. Wu ,
Zhibin Gou ,
Zhihong Shao ,
Zhuoshu Li ,
Ziyi Gao ,
Aixin Liu ,
Bing Xue ,
Bingxuan Wang ,
Bochao Wu ,
Bei Feng ,
Chengda Lu ,
Chenggang Zhao ,
Chengqi Deng ,
Chenyu Zhang ,
Chong Ruan ,
Damai Dai ,
Deli Chen ,
Dongjie Ji ,
Erhang Li ,
Fangyun Lin ,
Fucong Dai ,
Fuli Luo ,
Guangbo Hao ,
Guanting Chen ,
Guowei Li ,
H. Zhang ,
Han Bao ,
Hanwei Xu ,
Haocheng Wang ,
Honghui Ding ,
Huajian Xin ,
Huazuo Gao ,
Hui Qu ,
Hui Li ,
Jianzhong Guo ,
Jiashi Li ,
Jiawei Wang ,
Jingchang Chen ,
Jingyang Yuan ,
Junjie Qiu ,
Junlong Li ,
J. L. Cai ,
Jiaqi Ni ,
Jian Liang ,
Jin Chen ,
Kai Dong ,
Kai Hu ,
Kaige Gao ,
Kang Guan ,
Kexin Huang ,
Kuai Yu ,
Lean Wang ,
Lecong Zhang ,
Liang Zhao ,
Litong Wang ,
Liyue Zhang ,
Lei Xu ,
Leyi Xia ,
Mingchuan Zhang ,
Minghua Zhang ,
Minghui Tang ,
Meng Li ,
Miaojun Wang ,
Mingming Li ,
Ning Tian ,
Panpan Huang ,
Peng Zhang ,
Qiancheng Wang ,
Qinyu Chen ,
Qiushi Du ,
Ruiqi Ge ,
Ruisong Zhang ,
Ruizhe Pan ,
Runji Wang ,
R. J. Chen ,
R. L. Jin ,
Ruyi Chen ,
Shanghao Lu ,
Shangyan Zhou ,
Shanhuang Chen ,
Shengfeng Ye ,
Shiyu Wang ,
Shuiping Yu ,
Shunfeng Zhou ,
Shuting Pan ,
S. S. Li ,
Shuang Zhou ,
Shaoqing Wu ,
Shengfeng Ye ,
Tao Yun ,
Tian Pei ,
Tianyu Sun ,
T. Wang ,
Wangding Zeng ,
Wanjia Zhao ,
Wen Liu ,
Wenfeng Liang ,
Wenjun Gao ,
Wenqin Yu ,
Wentao Zhang ,
W. L. Xiao ,
Wei An ,
Xiaodong Liu ,
Xiaohan Wang ,
Xiaokang Chen ,
Xiaotao Nie ,
Xin Cheng ,
Xin Liu ,
Xin Xie ,
Xingchao Liu ,
Xinyu Yang ,
Xinyuan Li ,
Xuecheng Su ,
Xuheng Lin ,
X. Q. Li ,
Xiangyue Jin ,
Xiaojin Shen ,
Xiaosha Chen ,
Xiaowen Sun ,
Xiaoxiang Wang ,
Xinnan Song ,
Xinyi Zhou ,
Xianzu Wang ,
Xinxia Shan ,
Y. K. Li ,
Y. Q. Wang ,
Y. X. Wei ,
Yang Zhang ,
Yanhong Xu ,
Yao Li ,
Yao Zhao ,
Yaofeng Sun ,
Yaohui Wang ,
Yi Yu ,
Yichao Zhang ,
Yifan Shi ,
Yiliang Xiong ,
Ying He ,
Yishi Piao ,
Yisong Wang ,
Yixuan Tan ,
Yiyang Ma ,
Yiyuan Liu ,
Yongqiang Guo ,
Yuan Ou ,
Yuduan Wang ,
Yue Gong ,
Yuheng Zou ,
Yujia He ,
Yunfan Xiong ,
Yuxiang Luo ,
Yuxiang You ,
Yuxuan Liu ,
Yuyang Zhou ,
Y. X. Zhu ,
Yanhong Xu ,
Yanping Huang ,
Yaohui Li ,
Yi Zheng ,
Yuchen Zhu ,
Yunxian Ma ,
Ying Tang ,
Yukun Zha ,
Yuting Yan ,
Z. Z. Ren ,
Zehui Ren ,
Zhangli Sha ,
Zhe Fu ,
Zhean Xu ,
Zhenda Xie ,
Zhengyan Zhang ,
Zhewen Hao ,
Zhicheng Ma ,
Zhigang Yan ,
Zhiyu Wu ,
Zihui Gu ,
Zijia Zhu ,
Zijun Liu ,
Zilin Li ,
Ziwei Xie ,
Ziyang Song ,
Zizheng Pan ,
Zhen Huang ,
Zhipeng Xu ,
Zhongyu Zhang ,
Zhen Zhang
2025年01月22日
  • 简介
    我们介绍了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练的模型,在初步步骤中没有使用监督微调(SFT),它展示了出色的推理能力。通过强化学习,DeepSeek-R1-Zero自然地展现出许多强大且有趣的推理行为。然而,它也遇到了一些挑战,如可读性差和语言混用问题。为了解决这些问题并进一步提升推理性能,我们引入了DeepSeek-R1,该模型在强化学习之前结合了多阶段训练和冷启动数据。DeepSeek-R1在推理任务上的表现与OpenAI-o1-1217相当。为了支持研究社区,我们开源了DeepSeek-R1-Zero、DeepSeek-R1以及从DeepSeek-R1基于Qwen和Llama蒸馏出的六个密集模型(分别为15亿、70亿、80亿、140亿、320亿和700亿参数)。
  • 图表
  • 解决问题
    论文试图解决如何通过大规模强化学习(RL)训练模型以实现强大的推理能力,同时克服诸如可读性和语言混合等挑战。这是在现有研究基础上进一步探索的问题,并非全新问题,但对提升模型的实用性和性能具有重要意义。
  • 关键思路
    关键思路是引入了两个模型:DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 仅通过大规模强化学习训练,不使用监督微调,从而自然地涌现出强大的推理能力。而 DeepSeek-R1 则在此基础上增加了多阶段训练和冷启动数据,解决了 DeepSeek-R1-Zero 的一些缺陷,并显著提升了推理性能。这种结合强化学习与多阶段训练的方法是该研究的新颖之处。
  • 其它亮点
    论文的亮点包括:1) DeepSeek-R1-Zero 模型展示了强大的推理能力,尽管存在可读性和语言混合的问题;2) DeepSeek-R1 通过改进训练方法,实现了与 OpenAI-o1-1217 相当的推理性能;3) 研究团队开源了多个版本的模型,包括 DeepSeek-R1-Zero、DeepSeek-R1 以及六种不同参数量的密集模型,为社区提供了丰富的资源;4) 实验设计严谨,使用了多种数据集进行验证,确保了结果的可靠性。
  • 相关研究
    最近在这个领域中,相关的研究还包括:1) 使用强化学习提升语言模型推理能力的研究,如《Reinforcement Learning for Language Models: A Survey》;2) 探索多阶段训练方法的研究,如《Multi-stage Training for Enhanced Language Understanding》;3) 针对语言模型中的可读性和语言混合问题的研究,如《Improving Readability and Language Consistency in Large Language Models》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论