- 简介数学推理是人类智能的基石,也是衡量大型语言模型(LLMs)高级能力的关键基准。然而,研究社区仍然缺乏一个开放、大规模、高质量的数据集,专门满足以数学为中心的LLM预训练需求。我们提出了MegaMath,这是一个从多样化且专注于数学的来源中精心整理的开源数据集,其构建遵循以下实践:(1)重新审视网络数据:我们通过针对数学优化的HTML提取、基于fasttext的过滤和去重技术,从Common Crawl中重新提取了数学文档,以获取更高质量的互联网数据。(2)回顾与数学相关的代码数据:我们从大规模代码训练语料库Stack-V2中识别出高质量的数学相关代码,进一步增强了数据的多样性。(3)探索合成数据:我们从网络数据或代码数据中合成了问答风格的文本、数学相关代码以及交错的文本-代码块。通过整合这些策略,并通过广泛的消融实验验证其有效性,MegaMath提供了3710亿个标记,是现有开放数学预训练数据集中规模最大且质量最高的数据集。
- 图表
- 解决问题该论文试图解决数学推理领域缺乏大规模、高质量开放数据集的问题,特别是针对数学中心化的大型语言模型(LLMs)预训练需求。这是一个尚未完全解决的问题,尽管已有少量数学相关数据集,但规模和质量均不足以满足当前研究的需求。
- 关键思路论文提出了一种多策略方法构建名为MegaMath的开放数据集。关键思路包括:1)通过优化HTML提取和过滤技术重新挖掘Common Crawl中的数学文档;2)从Stack-V2代码语料库中筛选高质量数学相关代码;3)利用合成技术生成问答风格文本、数学代码以及混合文本-代码块。这种方法不仅显著增加了数据量,还提升了数据质量和多样性,使其成为目前最大的公开数学预训练数据集。
- 其它亮点1)MegaMath包含3710亿个标记,是目前已知最大的开源数学预训练数据集;2)通过多种策略(如fasttext过滤、去重、合成数据生成)确保数据质量;3)实验部分通过广泛的消融研究验证了各子模块的有效性;4)数据来源多样化,涵盖网页文本、代码片段及合成内容;5)数据集已开源,为未来研究提供了宝贵资源,值得进一步探索的方向包括改进合成数据生成技术和扩展到其他领域特定任务。
- 近年来,数学推理领域的研究逐渐增多,例如DeepMind发布的AlphaTensor项目('Discovering faster matrix multiplication algorithms with reinforcement learning'),探索通过强化学习加速矩阵乘法。此外,还有其他与数学数据集相关的研究,如MathQA('MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms')和MATH Dataset('MATH: An Elementary School Math Curriculum Dataset for Pretraining and Evaluation')。这些工作主要集中在问题解答或课程设计上,而MegaMath则专注于提供大规模基础数据以支持更广泛的预训练需求。
沙发等你来抢
去评论
评论
沙发等你来抢