- 简介最近大型语言模型(LLM)的进展引起了人们对它们的形式推理能力的兴趣,特别是在数学方面。GSM8K基准广泛用于评估模型在小学级别问题上的数学推理能力。虽然LLM在GSM8K上的表现在最近几年中显着提高,但它们的数学推理能力是否真正提高仍不清楚,这引发了对报告指标可靠性的质疑。为了解决这些问题,我们对几个SOTA开放和封闭模型进行了大规模研究。为了克服现有评估的局限性,我们引入了GSM-Symbolic,这是一个基于符号模板的改进基准,可以生成各种各样的问题。GSM-Symbolic能够进行更可控的评估,提供关键见解和更可靠的度量,以衡量模型的推理能力。我们的研究发现,LLM在回答同一问题的不同实例时表现出明显的差异。具体而言,当只改变GSM-Symbolic基准中问题中的数值时,所有模型的性能都会下降。此外,我们研究了这些模型中数学推理的脆弱性,并表明随着问题子句数量的增加,它们的性能显着下降。我们假设这种下降是因为当前的LLM无法进行真正的逻辑推理;它们复制训练数据中的推理步骤。即使一个似乎与问题相关的子句不对最终答案所需的推理链做出贡献,添加一个单子句也会导致所有最先进的模型的性能显着下降(高达65%)。总的来说,我们的工作提供了对LLM在数学推理方面能力和局限性的更细致的理解。
- 图表
- 解决问题本论文旨在探究最新的大型语言模型(LLMs)在数学推理方面的能力,并提出了一个改进的基准测试 GSM-Symbolic 以更可靠地评估模型的推理能力。研究发现当前的 LLMs 在处理数学问题时存在一定程度的不确定性和脆弱性,并且可能无法进行真正的逻辑推理。
- 关键思路本论文提出了一个改进的基准测试 GSM-Symbolic,通过符号模板生成多样化的问题,实现更可控的评估,以提供更可靠的度量模型推理能力的指标。研究发现,当前的 LLMs 并不能进行真正的逻辑推理,而是复制其训练数据中的推理步骤。
- 其它亮点本论文通过实验研究表明,当 GSM-Symbolic 基准测试中的数值发生变化时,所有模型的表现都会下降。此外,论文还发现,随着问题中子句数量的增加,模型的表现会显著下降。这表明当前的 LLMs 在数学推理方面存在脆弱性和不确定性,并且需要更多的研究来提高其推理能力。
- 最近的相关研究包括:《GSM8K: A Benchmark for Evaluating Math Problem Solving in Grade School Mathematics》、《MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms》等。
沙发等你来抢
去评论
评论
沙发等你来抢