GAUSS: Benchmarking Structured Mathematical Skills for Large Language Models

2025年09月10日
  • 简介
    我们提出 \textbf{GAUSS}(\textbf{G}eneral \textbf{A}ssessment of \textbf{U}nderlying \textbf{S}tructured \textbf{S}kills in Mathematics,即数学基础结构化技能的通用评估),这是一个在十二个核心技能维度上评估大语言模型数学能力的基准,这些维度被划分为三个领域:知识与理解、问题解决与沟通,以及元技能与创造力。通过根据认知技能对题目进行分类,并设计能够隔离特定能力的任务,GAUSS 构建出全面、细致且可解释的模型数学能力画像,这些画像真实反映了模型内在的数学智能水平。为了展示如何使用 \textsc{GAUSS} 基准,我们绘制了 \textsc{GPT-5-thinking} 的技能画像,揭示了其优势与不足,以及相对于 \textsc{o4-mini-high} 的差异,从而凸显了多维度、基于技能评估的重要价值。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决当前大型语言模型(LLM)在数学能力评估中的局限性问题,即传统基准测试往往只关注最终答案的正确性,而忽视了对模型底层数学认知技能的细粒度、多维度分析。该问题相对较新,随着LLM在复杂推理任务中表现提升,学界开始呼吁更具解释性的评估方式。
  • 关键思路
    提出GAUSS基准,将数学能力分解为十二个核心技能维度,涵盖知识理解、问题解决与沟通、元技能与创造力三大领域。通过按认知技能分类题目并设计隔离特定能力的任务,构建可解释的技能画像,从而全面刻画模型的数学智能。这一思路突破了传统‘黑箱’式评测,转向结构化、诊断性的评估框架。
  • 其它亮点
    设计了精细的技能分类体系,并基于此生成或筛选测试题;以GPT-5-thinking和o4-mini-high为例展示了技能画像的应用,揭示了二者在推理路径、创造力和元认知上的差异;实验具有强可解释性,支持横向模型比较;目前尚未提及开源代码或公开数据集,但方法论为后续构建透明评测提供了范式,值得进一步扩展至其他学科领域。
  • 相关研究
    1. Measuring Mathematical Problem Solving With the MATH Dataset 2. The Limits and Potentials of Deep Learning for Reasoning 3. BIG-Bench: Towards a Benchmark of Benchmarks 4. Mathematical Abilities of Large Language Models: A Systematic Evaluation 5. Skill-Abstraction in Cognitive AI: From Tasks to Competencies
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问