DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

向作者提问

NEW

简介

复杂数学推理的能力是人工智能的一项重要基准。虽然应用于大语言模型的强化学习（RL）展现出潜力，但其进展显著受到以下因素的阻碍：缺乏足够具有挑战性、拥有适合强化学习的可验证答案格式，并且不包含评估基准污染的大规模训练数据。为解决这些限制，我们引入了 DeepMath-103K，这是一套全新的大规模数据集，包含约 103,000 道数学问题，专为通过强化学习训练高级推理模型而设计。DeepMath-103K 经过严格的整理流程，包括来源分析、针对众多基准的严格去污染处理，以及对高难度问题（主要为第 5 至第 9 级别）的筛选，其挑战性远超现有的开源资源。每个问题均包含可验证的最终答案，支持基于规则的强化学习，并提供三种由 R1 生成的不同解决方案，适用于多种训练范式，例如监督微调或知识蒸馏。DeepMath-103K 涵盖广泛的数学主题，推动了通用推理能力的发展。我们证明，在 DeepMath-103K 上训练的模型在具有挑战性的数学基准测试中实现了显著改进，验证了其有效性。我们已公开发布 DeepMath-103K，以促进社区在构建更强大的 AI 推理系统方面的进步：https://github.com/zwhe99/DeepMath。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决的问题是如何通过强化学习（RL）提升大型语言模型（LLM）在复杂数学推理任务上的能力。目前的主要挑战是缺乏大规模、高难度且无污染的训练数据，这限制了模型在数学推理方面的进步。这是一个需要新数据集和方法来解决的关键问题。
关键思路

论文提出了一种名为DeepMath-103K的新数据集，包含约103,000个数学问题，经过严格筛选，确保高难度（主要为5-9级）并排除了与现有基准测试的重叠。每个问题都附有可验证的答案和三种不同的生成解决方案，支持多种训练范式，如监督微调或蒸馏。这种设计使模型能够通过规则驱动的强化学习进行训练，从而显著提高数学推理能力。
其它亮点

1. DeepMath-103K是目前规模最大、难度最高的数学推理数据集之一；2. 数据集中的问题具有高度多样性，涵盖了广泛的数学主题；3. 提供了三种不同形式的解决方案，有助于探索多样化的训练策略；4. 实验结果表明，在该数据集上训练的模型能够在多个基准测试中取得显著改进；5. 数据集已开源，代码和详细信息可在GitHub仓库中获取：https://github.com/zwhe99/DeepMath。
相关研究

近期相关研究包括：1. "Mathematical Reasoning with Language Models"，探讨了如何通过预训练模型改进数学推理；2. "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models"，研究了思维链提示对数学推理的帮助；3. "Learning to Solve Mathematical Word Problems with Reinforcement Learning"，使用强化学习解决数学应用题；4. "GSM8K: A Dataset of High School Math Word Problems"，提出了一个专注于中学数学问题的数据集。这些研究共同推动了AI在数学推理领域的进展。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问