- 简介在高质量、结构化的数据(例如数学和代码)上对大语言模型(LLMs)进行预训练,可以显著增强其推理能力。然而,现有的以数学为主的Common Crawl数据集由于提取启发式方法的局限性、HTML到文本转换过程中的信息损失,以及数学结构无法可靠保留等问题,导致数据质量下降。在本项研究中,我们提出了Nemotron-CC-Math,这是一个大规模、高质量的数学语料库,通过一种全新的、适用于通用领域的处理流程,从Common Crawl中专门提取科学文本,从而构建而成。 与以往的方法不同,我们的处理流程通过使用lynx实现具有布局感知能力的渲染技术,以及一个基于大语言模型的定向清洗阶段,能够从多种格式(例如MathJax、KaTeX、MathML)中恢复数学内容。这种方法不仅保留了公式和代码块的结构完整性,还能去除冗余内容,将符号标准化为LaTeX表示形式,并修正其中的不一致之处。 我们收集了一个大规模、高质量的数学语料库,命名为Nemotron-CC-Math-3+(1330亿个token)和Nemotron-CC-Math-4+(520亿个token)。值得一提的是,Nemotron-CC-Math-4+不仅在规模和质量上全面超越了所有先前的公开数学数据集(包括MegaMath、FineMath和OpenWebMath),其token数量更是超过了此前质量最高的数学预训练数据集FineMath-4+的5.5倍。当用于预训练Nemotron-T 8B模型时,我们的语料库在MATH基准测试中带来了+4.8到+12.6的提升,在MBPP+基准测试中带来了+4.6到+14.3的提升,同时也在MMLU和MMLU-Stem等通用领域的基准测试中表现出更好的性能。 我们提出了首个能够从嘈杂的网络规模数据中可靠提取科学内容(包括数学公式)的处理流程,显著提升了数学、代码和通用推理能力的表现,同时在公开的数学预训练语料库中树立了新的标杆。为了支持开源社区的发展,我们公开了代码和数据集。
-
- 图表
- 解决问题论文试图解决从Common Crawl等大规模网页数据中提取高质量数学内容的挑战。现有方法由于依赖脆弱的提取启发式规则、HTML到文本转换过程中的信息丢失,以及无法可靠保留数学结构,导致数学数据集质量下降。
- 关键思路论文提出了一种新的、领域无关的科学文本提取流程,通过结合基于布局感知的浏览器渲染(使用lynx)和基于LLM的目标清洗阶段,能够从网页中鲁棒地恢复多种格式的数学公式(如MathJax、KaTeX、MathML),并将其标准化为LaTeX表示。
- 其它亮点1. 构建了迄今为止最大规模的高质量数学语料库Nemotron-CC-Math-3+(133B tokens)和Nemotron-CC-Math-4+(52B tokens) 2. Nemotron-CC-Math-4+包含的token数量是先前最高质量数据集FineMath-4+的5.5倍 3. 在MATH和MBPP+任务上分别带来了+4.8至+12.6和+4.6至+14.3的性能提升 4. 实验验证了该语料库在数学、代码及通用推理任务(MMLU和MMLU-Stem)上的全面性能提升 5. 论文开源了代码和数据集,支持开源AI研究
- 1. MegaMath: A Large-Scale Dataset for Mathematical Reasoning 2. FineMath: Improving Mathematical Pretraining with Finely Curated Data 3. OpenWebMath: An Open Dataset for Web-Extracted Mathematical Content 4. LaTeX-OCR: Rendering Mathematical Expressions from Images 5. Program-aided Language Models for Mathematical Reasoning
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流