MARIO Eval: Evaluate Your Math LLM with your Math LLM--A mathematical dataset evaluation toolkit

向作者提问

NEW

简介

本文介绍了一种全面的数学评估工具包，可以用于解决数学问题等各种推理任务。每个数学数据集通常都包括其自己专门设计的评估脚本，虽然适用于其预期用途，但缺乏跨不同数据集的通用性。因此，这些评估工具的更新和适应往往发生在没有系统地报告的情况下，导致研究之间存在不一致性和障碍。为了弥合这一差距，本文引入了一个全面的数学评估工具包，不仅利用 Python 计算机代数系统（CAS）进行数值精度，还集成了一个可选的大型语言模型（LLM），以便利用其显着的自然语言处理能力。为了验证我们的工具包的有效性，我们手动注释了两个不同的数据集。我们的实验证明，即使没有 LLM，该工具包也可以产生比以前更稳健的评估结果。此外，当引入 LLM 时，有明显的改善。我们的方法代码将在\url{https://github.com/MARIO-Math-Reasoning/math_evaluation}上提供。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决数学推理任务中评估工具的不一致性和缺乏通用性的问题，提出了一种综合数学评估工具，包括Python计算机代数系统和可选的大型语言模型，以提高评估结果的鲁棒性和准确性。
关键思路

本文提出了一种综合数学评估工具，利用Python计算机代数系统和大型语言模型，以提高数学推理任务的评估结果的鲁棒性和准确性。
其它亮点

本文提出的数学评估工具在两个数据集上的实验结果表明，即使没有大型语言模型的参与，该工具也能产生更为稳健的评估结果。此外，当大型语言模型参与时，评估结果得到了显著提升。本文的代码已在GitHub上开源。
相关研究

近期相关研究包括：1.《Neural Arithmetic Logic Units》；2.《MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms》；3.《MathDQN: Solving Arithmetic Word Problems via Deep Reinforcement Learning》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问