Nemotron-CC-Math: A 133 Billion-Token-Scale High Quality Math Pretraining Dataset

向作者提问

NEW

简介

在高质量、结构化的数据（例如数学和代码）上对大语言模型（LLMs）进行预训练，可以显著增强其推理能力。然而，现有的以数学为主的Common Crawl数据集由于提取启发式方法的局限性、HTML到文本转换过程中的信息损失，以及数学结构无法可靠保留等问题，导致数据质量下降。在本项研究中，我们提出了Nemotron-CC-Math，这是一个大规模、高质量的数学语料库，通过一种全新的、适用于通用领域的处理流程，从Common Crawl中专门提取科学文本，从而构建而成。与以往的方法不同，我们的处理流程通过使用lynx实现具有布局感知能力的渲染技术，以及一个基于大语言模型的定向清洗阶段，能够从多种格式（例如MathJax、KaTeX、MathML）中恢复数学内容。这种方法不仅保留了公式和代码块的结构完整性，还能去除冗余内容，将符号标准化为LaTeX表示形式，并修正其中的不一致之处。我们收集了一个大规模、高质量的数学语料库，命名为Nemotron-CC-Math-3+（1330亿个token）和Nemotron-CC-Math-4+（520亿个token）。值得一提的是，Nemotron-CC-Math-4+不仅在规模和质量上全面超越了所有先前的公开数学数据集（包括MegaMath、FineMath和OpenWebMath），其token数量更是超过了此前质量最高的数学预训练数据集FineMath-4+的5.5倍。当用于预训练Nemotron-T 8B模型时，我们的语料库在MATH基准测试中带来了+4.8到+12.6的提升，在MBPP+基准测试中带来了+4.6到+14.3的提升，同时也在MMLU和MMLU-Stem等通用领域的基准测试中表现出更好的性能。我们提出了首个能够从嘈杂的网络规模数据中可靠提取科学内容（包括数学公式）的处理流程，显著提升了数学、代码和通用推理能力的表现，同时在公开的数学预训练语料库中树立了新的标杆。为了支持开源社区的发展，我们公开了代码和数据集。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决从Common Crawl等大规模网页数据中提取高质量数学内容的挑战。现有方法由于依赖脆弱的提取启发式规则、HTML到文本转换过程中的信息丢失，以及无法可靠保留数学结构，导致数学数据集质量下降。
关键思路

论文提出了一种新的、领域无关的科学文本提取流程，通过结合基于布局感知的浏览器渲染（使用lynx）和基于LLM的目标清洗阶段，能够从网页中鲁棒地恢复多种格式的数学公式（如MathJax、KaTeX、MathML），并将其标准化为LaTeX表示。
其它亮点

1. 构建了迄今为止最大规模的高质量数学语料库Nemotron-CC-Math-3+（133B tokens）和Nemotron-CC-Math-4+（52B tokens） 2. Nemotron-CC-Math-4+包含的token数量是先前最高质量数据集FineMath-4+的5.5倍 3. 在MATH和MBPP+任务上分别带来了+4.8至+12.6和+4.6至+14.3的性能提升 4. 实验验证了该语料库在数学、代码及通用推理任务（MMLU和MMLU-Stem）上的全面性能提升 5. 论文开源了代码和数据集，支持开源AI研究
相关研究

1. MegaMath: A Large-Scale Dataset for Mathematical Reasoning 2. FineMath: Improving Mathematical Pretraining with Finely Curated Data 3. OpenWebMath: An Open Dataset for Web-Extracted Mathematical Content 4. LaTeX-OCR: Rendering Mathematical Expressions from Images 5. Program-aided Language Models for Mathematical Reasoning

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问