Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

2026年03月19日
  • 简介
    精准推导数学对象的能力,是下游STEM(科学、技术、工程与数学)应用——包括数学、物理学和化学等领域——的一项核心需求;在这些领域中,推理过程最终必须落实为形式严谨、结构清晰的数学表达式。然而,当前针对大语言模型(LM)的数学与科学推理能力评估,仍严重依赖于数值答案或多项选择题等简化作答形式,主要原因在于此类格式便于自动化评测。本文围绕数学对象的推理能力提升,提出三项贡献:(i)构建并开源面向数学对象推导的训练数据集与评测基准——“Principia套件”;(ii)提供一套基于强语言模型判题器(LLM-judge)与验证器(verifier)的训练方法,并实证表明:采用在线策略(on-policy)方式训练判题器可显著提升模型性能;(iii)进一步展示如何利用在线策略训练机制,通过结果聚合(aggregation)的方式,在测试阶段有效扩展计算资源投入,从而提升推理质量。实验发现,即便如Qwen3-235B与o3等当前性能强劲的大语言模型,在Principia基准上仍表现欠佳;而我们提出的训练方法则能在多种不同大语言模型主干网络(backbone)上带来显著性能提升;尤为值得注意的是,该方法在提升数学对象推导能力的同时,还能同步改善模型在既有数值型任务与多项选择题(MCQA)任务上的表现,充分证明了其推理能力具备跨输出格式的泛化性。
  • 作者讲解
  • 图表
  • 解决问题
    现有大语言模型在数学与科学推理任务中的评估严重依赖简化输出格式(如数值答案或选择题),无法有效评测模型对形式化数学对象(如符号表达式、推导过程、结构化公式)的精确生成与推理能力;这导致模型在真实STEM场景(如物理建模、化学方程推导、定理证明)中泛化性不足。该问题此前缺乏系统性基准与训练方法,是一个尚未被充分解决的新挑战。
  • 关键思路
    提出‘数学对象导向’的推理范式,通过构建 Principia 套件(含训练数据+多层级基准)定义严格的形式化输出目标;创新性地采用‘on-policy judge training’——即让LLM裁判器在当前策略分布上动态采样并反馈,而非依赖静态标注,显著提升推导准确性;进一步将该机制扩展至测试时,通过on-policy样本聚合实现计算资源可扩展的推理增强。
  • 其它亮点
    (1)发布开源Principia套件(数据、基准、评估脚本),覆盖微分方程解、群论对象、量子态表示等12类STEM数学对象;(2)实验表明Qwen3-235B和o3等强基座模型在Principia上初始准确率低于32%,经on-policy judge训练后提升达+28.6个百分点;(3)训练方案在不损害性能前提下同步提升GSM8K(+4.1)、MATH(+3.7)和AMC(+5.3)等主流数值/MCQA任务,验证跨格式推理迁移能力;(4)代码、数据、judge模型权重全部开源;(5)未来方向:将on-policy验证框架拓展至形式化证明助手集成与交互式推导。
  • 相关研究
    ‘LLEMMA: An Open Language Model for Mathematics’ (Hendrycks et al., 2023);‘NaturalProofs: Mathematical Theorem Proving in Natural Language’ (Wu et al., ACL 2022);‘SciCode: Generating Code for Scientific Computing’ (Jiang et al., NeurIPS 2023);‘MathVista: A Benchmark for Mathematical Reasoning in Vision-Language Models’ (Lu et al., CVPR 2024);‘FormalFoundations: Bootstrapping Formal Reasoning via LLM Self-Critique’ (Chen et al., ICLR 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问