DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

2025年04月15日
  • 简介
    复杂数学推理的能力是人工智能的一项重要基准。虽然应用于大语言模型的强化学习(RL)展现出潜力,但其进展显著受到以下因素的阻碍:缺乏足够具有挑战性、拥有适合强化学习的可验证答案格式,并且不包含评估基准污染的大规模训练数据。为解决这些限制,我们引入了 DeepMath-103K,这是一套全新的大规模数据集,包含约 103,000 道数学问题,专为通过强化学习训练高级推理模型而设计。DeepMath-103K 经过严格的整理流程,包括来源分析、针对众多基准的严格去污染处理,以及对高难度问题(主要为第 5 至第 9 级别)的筛选,其挑战性远超现有的开源资源。每个问题均包含可验证的最终答案,支持基于规则的强化学习,并提供三种由 R1 生成的不同解决方案,适用于多种训练范式,例如监督微调或知识蒸馏。DeepMath-103K 涵盖广泛的数学主题,推动了通用推理能力的发展。我们证明,在 DeepMath-103K 上训练的模型在具有挑战性的数学基准测试中实现了显著改进,验证了其有效性。我们已公开发布 DeepMath-103K,以促进社区在构建更强大的 AI 推理系统方面的进步:https://github.com/zwhe99/DeepMath。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决的问题是如何通过强化学习(RL)提升大型语言模型(LLM)在复杂数学推理任务上的能力。目前的主要挑战是缺乏大规模、高难度且无污染的训练数据,这限制了模型在数学推理方面的进步。这是一个需要新数据集和方法来解决的关键问题。
  • 关键思路
    论文提出了一种名为DeepMath-103K的新数据集,包含约103,000个数学问题,经过严格筛选,确保高难度(主要为5-9级)并排除了与现有基准测试的重叠。每个问题都附有可验证的答案和三种不同的生成解决方案,支持多种训练范式,如监督微调或蒸馏。这种设计使模型能够通过规则驱动的强化学习进行训练,从而显著提高数学推理能力。
  • 其它亮点
    1. DeepMath-103K是目前规模最大、难度最高的数学推理数据集之一;2. 数据集中的问题具有高度多样性,涵盖了广泛的数学主题;3. 提供了三种不同形式的解决方案,有助于探索多样化的训练策略;4. 实验结果表明,在该数据集上训练的模型能够在多个基准测试中取得显著改进;5. 数据集已开源,代码和详细信息可在GitHub仓库中获取:https://github.com/zwhe99/DeepMath。
  • 相关研究
    近期相关研究包括:1. "Mathematical Reasoning with Language Models",探讨了如何通过预训练模型改进数学推理;2. "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models",研究了思维链提示对数学推理的帮助;3. "Learning to Solve Mathematical Word Problems with Reinforcement Learning",使用强化学习解决数学应用题;4. "GSM8K: A Dataset of High School Math Word Problems",提出了一个专注于中学数学问题的数据集。这些研究共同推动了AI在数学推理领域的进展。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问