DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

简介

本文介绍了DeepSeekMath 7B，它在DeepSeek-Coder-Base-v1.5 7B的基础上，利用Common Crawl中的120B与数学相关的标记，结合自然语言和代码数据进行预训练。DeepSeekMath 7B在MATH基准测试中取得了51.7%的惊人得分，且没有依赖外部工具包和投票技术，接近Gemini-Ultra和GPT-4的性能水平。DeepSeekMath 7B的64个样本的自一致性在MATH上达到了60.9%。DeepSeekMath的数学推理能力归因于两个关键因素：首先，我们通过一个精心设计的数据选择管道，利用公开可用的Web数据的巨大潜力。其次，我们引入了Group Relative Policy Optimization（GRPO），这是Proximal Policy Optimization（PPO）的一个变体，它增强了数学推理能力，同时优化了PPO的内存使用。
图表
解决问题

DeepSeekMath 7B试图解决数学推理中的复杂性问题。
关键思路

DeepSeekMath 7B通过利用公共可用的网络数据和引入Group Relative Policy Optimization (GRPO)增强数学推理能力，同时优化PPO的内存使用，从而提高数学推理能力。
其它亮点

DeepSeekMath 7B在MATH基准测试中取得了51.7%的得分，自我一致性达到60.9%。使用了120B的与数学相关的令牌，没有依赖外部工具包和投票技术。
相关研究

在这个领域中，最近的相关研究包括Gemini-Ultra和GPT-4。