- 简介本文介绍了一系列使用思维分解、代码辅助和自我纠正的大型语言模型(LLMs),名为DotaMath。 DotaMath模型通过将复杂的数学任务分解为简单的逻辑子任务,利用代码解决这些子任务,从代码解释器获得细粒度的反馈,并进行自我反思和纠正,来解决复杂的数学任务。通过注释不同的交互式工具使用轨迹,并在GSM8K和MATH数据集上使用查询演化,我们生成了一个指令微调数据集DotaMathQA,包含574K个查询-响应对。我们使用模仿学习在DotaMathQA上训练了一系列基础LLMs,从而得到了与各种领域内和领域外的基于开源的LLMs相比表现出色的DotaMath模型。特别是,DotaMath-deepseek-7B在具有竞争力的MATH数据集上表现出色,达到64.8%,在GSM8K上达到86.7%。此外,DotaMath-deepseek-7B在一系列领域内和领域外的基准测试中保持强大的竞争力(平均80.1%)。展望未来,我们期待DotaMath范例将为解决复杂的数学问题开辟新的途径。我们的代码公开在https://github.com/ChengpengLi1003/DotaMath。
- 图表
- 解决问题本论文旨在解决复杂数学问题的挑战,提出了一种名为DotaMath的LLM模型,通过将问题分解为简单的逻辑子任务,利用代码求解这些子任务,获得代码解释器的细粒度反馈,并进行自我反思和修正来解决复杂数学问题。这是否是一个新问题?
- 关键思路DotaMath模型通过分解和求解逻辑子任务的方式,利用代码求解数学问题,获得细粒度的反馈和自我修正,取得了比当前领域其他开源LLM模型更好的性能表现。相比当前领域的研究,DotaMath模型的思路有新意。
- 其它亮点本论文提出的DotaMath模型在多个数据集上进行了实验,包括574K个查询-响应对的DotaMathQA数据集、MATH数据集和GSM8K数据集等。实验结果表明,DotaMath模型在这些数据集上表现出色,尤其是在MATH数据集上取得了64.8%的优异成绩。此外,DotaMath模型的代码已经公开在Github上。
- 在这个领域中,最近的相关研究包括《Large-Scale QA-SRL Parsing》、《MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms》等。
沙发等你来抢
去评论
评论
沙发等你来抢