- 简介通常用于评估大型语言模型(LLMs)在数学文字题上的最终答案-based指标,往往被视为推理能力的代理。然而,这类指标将两种不同的子技能混淆在一起:抽象公式化(用表达式捕捉数学关系)和算术计算(执行计算)。通过对GSM8K和SVAMP数据集的分解评估,我们发现,在没有链式思维(CoT)的情况下,Llama-3和Qwen2.5(1B-32B参数量级)的最终答案准确性主要受限于算术计算步骤,而非抽象公式化步骤。与普遍看法相反,我们的研究表明,链式思维主要帮助的是计算部分,对抽象公式化的提升有限。从机制上看,我们展示了这两种技能即使在没有任何推理步骤的单次前向传递中也是通过“抽象-然后-计算”机制结合的:模型首先捕捉问题的抽象表示,然后进行计算。因果修补(causal patching)验证了这些抽象表示的存在性、可转移性、可组合性,并且它们先于计算发生。这些行为和机制层面的发现强调了分解评估的重要性,以准确衡量LLM的推理能力并指导未来的改进方向。
-
- 图表
- 解决问题论文试图解决如何准确评估大语言模型(LLMs)在数学问题解决中的推理能力问题。它指出,传统的最终答案准确性评估方法混淆了抽象公式化和算术计算两个不同的子技能,因此需要一种解耦的评估方法来分别衡量这两个方面。
- 关键思路论文提出了一种解耦评估方法,通过分析LLMs在GSM8K和SVAMP数据集上的表现,揭示了模型在没有链式思维(CoT)的情况下,其性能瓶颈主要在于算术计算而非抽象公式化。此外,论文还提出了一个‘抽象-然后-计算’机制,表明模型在单次前向传递中先捕捉问题抽象再进行计算。
- 其它亮点1. 实验设计:通过解耦评估发现,Llama-3和Qwen2.5的主要瓶颈在于算术计算;2. 数据集:使用了GSM8K和SVAMP两个公开数据集;3. 方法验证:利用因果修补技术确认了模型中存在可转移、可组合的抽象表示;4. 潜在研究方向:探讨如何进一步提升模型在算术计算方面的准确性,以及如何改进抽象公式化的质量。
- 近期相关研究包括:1. 'Chain of Thought Prompting Elicits Reasoning in Large Language Models',探讨了CoT对推理的影响;2. 'Evaluating Large Language Models Trained on Code',研究代码训练对模型性能的影响;3. 'Dissecting the Scaling Behavior of Natural and Artificial Neural Networks',分析了神经网络规模对任务表现的作用。


提问交流