- 简介本文介绍了DeepSeekMath 7B,它在DeepSeek-Coder-Base-v1.5 7B的基础上,利用Common Crawl中的120B与数学相关的标记,结合自然语言和代码数据进行预训练。DeepSeekMath 7B在MATH基准测试中取得了51.7%的惊人得分,且没有依赖外部工具包和投票技术,接近Gemini-Ultra和GPT-4的性能水平。DeepSeekMath 7B的64个样本的自一致性在MATH上达到了60.9%。DeepSeekMath的数学推理能力归因于两个关键因素:首先,我们通过一个精心设计的数据选择管道,利用公开可用的Web数据的巨大潜力。其次,我们引入了Group Relative Policy Optimization(GRPO),这是Proximal Policy Optimization(PPO)的一个变体,它增强了数学推理能力,同时优化了PPO的内存使用。
- 图表
- 解决问题DeepSeekMath 7B试图解决数学推理中的复杂性问题。
- 关键思路DeepSeekMath 7B通过利用公共可用的网络数据和引入Group Relative Policy Optimization (GRPO)增强数学推理能力,同时优化PPO的内存使用,从而提高数学推理能力。
- 其它亮点DeepSeekMath 7B在MATH基准测试中取得了51.7%的得分,自我一致性达到60.9%。使用了120B的与数学相关的令牌,没有依赖外部工具包和投票技术。
- 在这个领域中,最近的相关研究包括Gemini-Ultra和GPT-4。
沙发等你来抢
去评论
评论
沙发等你来抢