DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

Zhihong Shao ,
Peiyi Wang ,
Qihao Zhu ,
Runxin Xu ,
Junxiao Song ,
Mingchuan Zhang ,
Y. K. Li ,
Y. Wu ,
Daya Guo
2024年02月05日
  • 简介
    本文介绍了DeepSeekMath 7B,它在DeepSeek-Coder-Base-v1.5 7B的基础上,利用Common Crawl中的120B与数学相关的标记,结合自然语言和代码数据进行预训练。DeepSeekMath 7B在MATH基准测试中取得了51.7%的惊人得分,且没有依赖外部工具包和投票技术,接近Gemini-Ultra和GPT-4的性能水平。DeepSeekMath 7B的64个样本的自一致性在MATH上达到了60.9%。DeepSeekMath的数学推理能力归因于两个关键因素:首先,我们通过一个精心设计的数据选择管道,利用公开可用的Web数据的巨大潜力。其次,我们引入了Group Relative Policy Optimization(GRPO),这是Proximal Policy Optimization(PPO)的一个变体,它增强了数学推理能力,同时优化了PPO的内存使用。
  • 图表
  • 解决问题
    DeepSeekMath 7B试图解决数学推理中的复杂性问题。
  • 关键思路
    DeepSeekMath 7B通过利用公共可用的网络数据和引入Group Relative Policy Optimization (GRPO)增强数学推理能力,同时优化PPO的内存使用,从而提高数学推理能力。
  • 其它亮点
    DeepSeekMath 7B在MATH基准测试中取得了51.7%的得分,自我一致性达到60.9%。使用了120B的与数学相关的令牌,没有依赖外部工具包和投票技术。
  • 相关研究
    在这个领域中,最近的相关研究包括Gemini-Ultra和GPT-4。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论