GAUSS: Benchmarking Structured Mathematical Skills for Large Language Models

向作者提问

NEW

简介

我们提出 \textbf{GAUSS}（\textbf{G}eneral \textbf{A}ssessment of \textbf{U}nderlying \textbf{S}tructured \textbf{S}kills in Mathematics，即数学基础结构化技能的通用评估），这是一个在十二个核心技能维度上评估大语言模型数学能力的基准，这些维度被划分为三个领域：知识与理解、问题解决与沟通，以及元技能与创造力。通过根据认知技能对题目进行分类，并设计能够隔离特定能力的任务，GAUSS 构建出全面、细致且可解释的模型数学能力画像，这些画像真实反映了模型内在的数学智能水平。为了展示如何使用 \textsc{GAUSS} 基准，我们绘制了 \textsc{GPT-5-thinking} 的技能画像，揭示了其优势与不足，以及相对于 \textsc{o4-mini-high} 的差异，从而凸显了多维度、基于技能评估的重要价值。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决当前大型语言模型（LLM）在数学能力评估中的局限性问题，即传统基准测试往往只关注最终答案的正确性，而忽视了对模型底层数学认知技能的细粒度、多维度分析。该问题相对较新，随着LLM在复杂推理任务中表现提升，学界开始呼吁更具解释性的评估方式。
关键思路

提出GAUSS基准，将数学能力分解为十二个核心技能维度，涵盖知识理解、问题解决与沟通、元技能与创造力三大领域。通过按认知技能分类题目并设计隔离特定能力的任务，构建可解释的技能画像，从而全面刻画模型的数学智能。这一思路突破了传统‘黑箱’式评测，转向结构化、诊断性的评估框架。
其它亮点

设计了精细的技能分类体系，并基于此生成或筛选测试题；以GPT-5-thinking和o4-mini-high为例展示了技能画像的应用，揭示了二者在推理路径、创造力和元认知上的差异；实验具有强可解释性，支持横向模型比较；目前尚未提及开源代码或公开数据集，但方法论为后续构建透明评测提供了范式，值得进一步扩展至其他学科领域。
相关研究

1. Measuring Mathematical Problem Solving With the MATH Dataset 2. The Limits and Potentials of Deep Learning for Reasoning 3. BIG-Bench: Towards a Benchmark of Benchmarks 4. Mathematical Abilities of Large Language Models: A Systematic Evaluation 5. Skill-Abstraction in Cognitive AI: From Tasks to Competencies

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问