
作者:紫晗
编辑:李宝珠
转载请联系本公众号获得授权,并标明来源
HyperAI超神经为大家整理了目前热度较高的数学推理数据集,覆盖等多个领域。一键即可下载,快来体验吧~
随着大模型能力的迅速跃迁,数学推理正从人类独有的智性活动,演变为人工智能领域最具挑战性的前沿方向之一。逻辑推演、公式运算与多步思考等原本依赖人类理性的任务,如今正被机器逐步「理解」与「习得」。然而,不同于语言理解或图像识别,数学推理要求模型不仅能理解题目的表层含义,更要洞察其背后的逻辑结构,这使得模型的表现对数据质量的依赖尤为突出。
模型从「会算」到「会推理」的进步,必须依托高质量、结构化、逻辑分明的数据支撑。系统化、层次化、逻辑一致的数据集,不仅决定模型能否掌握抽象符号背后的推理规律,也影响其在开放环境中的泛化与自我纠错能力。而与通用自然语言语料相比,数学推理数据集更强调问题分布的多样性、解题路径的可解释性,以及推理链的完整标注,确保模型的学习过程能够尽可能贴近人类思维。
总体而言,数学推理正成为人工智能迈向「可解释智能」的关键窗口。为推动这一方向的研究与应用,HyperAI超神经特别整理了一系列的数学推理数据集,来自浙江大学、香港大学、英伟达、OpenAI、阿里巴巴等全球范围内顶尖机构以及头部企业,涵盖视觉数学、几何分析等多个层面。
点击查看更多开源数据集:
https://go.hyper.ai/CdPJZ
数学推理数据集汇总
1
预估大小:369.86 MB
下载地址:https://go.hyper.ai/1dAZ2
We-Math2.0-Standard 是由北京邮电大学、腾讯和清华大学于 2025 年发布的面向视觉数学推理的标准数据集,相关论文成果为「WE-MATH 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning」,旨在提供一个可诊断、可解释、可对比的评测基础。
论文地址:
https://hyper.ai/en/papers/2508.10433
该数据集围绕 1,819 条精定义的知识原理(Knowledge Principles)建立统一标签空间,对每道题进行显式原理标注与严格策展,从而在整体上实现广泛且均衡的覆盖,特别补强以往代表性不足的数学子领域与题型。数据集采用双重扩展设计:
* 其一,每题多图(multi-images per question)用于考查多源视觉证据的整合与对齐;
* 其二,每图多题(multi-questions per image)用于在同一视觉语境下检验多原理迁移与概念灵活性。
每个样例由图像与文本题干组成,并配套该题所依赖的知识原理标注与标准答案。
2
预估大小:65.06 MB
下载地址:https://go.hyper.ai/BfJFv
NuminaMath-LEAN 是由 Numina 和 Kimi Team 于 2025 年联合发布的一个数学问题数据集,相关论文成果为「Kimina-Prover Preview: Towards Large Formal Reasoning Models with Reinforcement Learning」,旨在为自动化定理证明模型的训练与评估提供人工标注的形式化陈述与证明。
论文地址:
https://hyper.ai/en/papers/2504.11354
该数据集包含 10 万个数学竞赛问题,问题涵盖国际数学奥林匹克(IMO)、美国数学奥林匹克(USAMO)等权威赛事题目,数据类型包括问题陈述、题型分类、答案、来源、形式化证明、标注者信息及强化学习训练过程记录。
3
预估大小:1.43 GB
下载地址:https://go.hyper.ai/5XULu
T-Wix 是一个俄罗斯的 SFT 数据集,相关论文成果为「From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning」,旨在增强模型从解决算法和数学问题到对话、逻辑思维和推理模式的能力。
论文地址:
https://arxiv.org/abs/2308.12032
该数据集包含了 499,598 个俄语样本,其中通用样本包含 468,614 条数据,涵盖数学、科学、编程、常识、指令遵循、角色扮演等多个领域。推理样本包含 30,984 条数据,专注于高级数学和科学问题,并提供详细的推理轨迹。
4
预估大小:639.91 KB
下载地址:https://go.hyper.ai/28kjP
Nemotron-Math-HumanReasoning 是由英伟达于 2025 年发布的一个数学推理数据集,相关论文成果为「The Challenge of Teaching Reasoning to LLMs Without RL or Distillation」,旨在模拟 DeepSeek-R1 等模型的扩展推理风格。
论文地址:
https://arxiv.org/abs/2507.09850
该数据集包含来自 OpenMathReasoning 数据集的 50 道数学题、 200 个人工撰写的解答,以及由 QwQ-32B-Preview 额外生成的 50 个解答。
5
预估大小:6.6 GB
下载地址:https://go.hyper.ai/bndWW
Open-Omega-Atom-1.5M 是一个数学与科学推理数据集,旨在增强数学和科学领域的推理能力。
该数据集包含了约 150 万 条数据,专为数学、科学和代码应用设计,其中数学类数据在构成中占重要地位。
数据集特点:
* 简洁、高质量:专注于清晰、具有挑战性的问题和逐步的解决方案。
* STEM 重点:将数学、代码推理和科学思维与数学专业相结合。
* 精选和优化:从高质量开放数据集和自定义数据中选择性地获取数据,以实现最佳多样性和连贯性。
* 适用于推理:对基于步骤和逻辑的问题解决有很强的覆盖范围,可作为推理引擎的基准。
6
预估大小:4.92 MB
下载地址:https://go.hyper.ai/d9PZh
GSM8K 是由 OpenAI 于 2022 年发布的一个数学推理数据集,相关论文成果为:「Training Verifiers to Solve Math Word Problems」,旨在提升机器学习模型在理解和解决复杂数学问题上的表现。
论文地址:
https://arxiv.org/abs/2110.14168
该数据集包含 8.5k 个高质量、语言多样化的小学数学应用题,覆盖代数、算术、几何等多个领域。题目解答步骤在 2-8 步之间。其解决方案主要涉及使用基本算术运算(+ − × ÷)进行一系列简单计算,以得出最终答案。
7
预估大小:86.04 MB
下载地址:https://hyper.ai/cn/datasets/43960
VCBench 是由阿里巴巴联合浙江大学,于 2025 年发布的一个专为评估具备显式视觉依赖性的多模态数学推理基准数据集。该数据集包含 1,720 个问答对,共包含 6,697 张图片。
问题主要包含以下 6 个领域:
* 时间和日历:测试两个子类别(日历和时钟)的时间推理问题,需要理解时间间隔和基于日历的计算。
* 空间和位置:挑战集中在三个子类别(方向、位置和地点)的空间推理上,以评估对相对位置、方向和空间关系的理解。
* 几何和形状:涵盖五个子类别(角度、四边形、矩形、形状和三角形)的问题,测试从基本形状识别到更复杂的属性分析的基本几何理解能力。
* 物体和运动:两个子类别(立方体和移动)中的任务,用于评估对三维物体和运动变换的理解。
* 推理和观察:两个子类别(推理和观察)中的问题旨在测试逻辑推理和仔细的视觉观察技能。
* 组织和模式:跨三个子类别(组织、模式和权重)的挑战,评估模式识别、排序和组织逻辑。

以上就是本期推荐的数据集汇总,快来一键下载使用吧~
关于 HyperAI超神经 (hyper.ai)
HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:
* 为 1200+ 公开数据集提供国内加速下载节点
* 收录 300+ 经典及流行在线教程
* 解读 200+ AI4Science 论文案例
* 支持 500+ 相关词条查询
* 托管国内首个完整的 Apache TVM 中文文档
访问官网开启学习之旅:
https://hyper.ai/


戳“阅读原文”,免费获取海量数据集资源!
内容中包含的图片若涉及版权问题,请及时与我们联系删除






评论
沙发等你来抢