- 简介大型语言模型(LLMs)在各种自然语言任务中表现出了卓越的能力,通常能够超越人类的表现。尽管取得了这些进展,但数学领域仍然具有独特的挑战,主要是由于其专业结构和所需的精度。在本研究中,我们采用了一个两步方法来研究LLMs在回答数学问题方面的熟练程度。首先,我们使用在数学问答基准测试中表现最佳的LLMs来回答来自Math Stack Exchange(MSE)的78个问题。其次,对表现最佳的LLM进行案例分析,重点关注其答案的质量和准确性进行手动评估。我们发现,相对于针对回答数学问题进行微调的现有LLMs,GPT-4表现最佳(nDCG为0.48,P@10为0.37),并且在考虑P@10时优于ArqMATH3 Task1的当前最佳方法。我们的案例分析表明,虽然GPT-4在某些情况下可以生成相关的响应,但它并不总是能够准确回答所有问题。本文探讨了LLMs在解决复杂数学问题方面的当前限制。通过案例分析,我们揭示了LLMs在数学领域能力差距,从而为未来基于人工智能的数学推理研究和进展奠定了基础。我们公开了我们的代码和研究结果以供研究使用:\url{https://github.com/gipplab/LLM-Investig-MathStackExchange}。
- 图表
- 解决问题探究大型语言模型在数学问题上的表现,揭示其在数学推理中的局限性。
- 关键思路采用两步法研究大型语言模型在回答数学问题中的表现:首先使用现有的表现最好的大型语言模型回答Math Stack Exchange(MSE)上的78个问题,然后对表现最好的GPT-4模型进行案例分析,手动评估其答案的质量和准确性。
- 其它亮点研究发现,相较于其他已经针对回答数学问题进行了微调的大型语言模型,GPT-4表现最佳。通过案例分析,我们发现GPT-4可以在某些情况下生成相关的回答,但并不总是准确回答所有问题。研究为探究大型语言模型在复杂数学问题解决中的局限性提供了有价值的见解,为未来的研究和发展奠定了基础。研究代码和结果已公开发布。
- 与该研究相关的研究包括ArqMATH3 Task1的最佳方法研究,以及其他大型语言模型在回答数学问题方面的研究,如GPT-3和BERT等。
沙发等你来抢
去评论
评论
沙发等你来抢