- 简介数学验证器通过验证解决方案的正确性来成功完成数学推理任务。然而,现有的验证器是使用二元分类标签进行训练的,这些标签对于模型准确评估解决方案来说不够具有信息性。为了缓解二元标签的不足,我们引入了分步自然语言反馈作为理性标签(即当前步骤的正确性和解释)。在本文中,我们提出了一种名为Math-Minos的自然语言反馈增强验证器,通过构建自动生成的训练数据和两阶段训练范式来实现有效的训练和高效的推理。我们的实验证明,一个较小的自然语言反馈集合(30k)可以显著提高验证器的性能,GSM8K的准确性提高了1.6%(从86.6%到88.2%),MATH的准确性提高了0.8%(从37.8%到38.6%)。我们已经发布了代码和数据以供进一步探索。
- 图表
- 解决问题提高数学验证器的准确性,解决二元标签不足的问题。
- 关键思路通过引入自动生成的自然语言反馈标签,构建两阶段训练范式,提高数学验证器的准确性和效率。
- 其它亮点论文提出了Math-Minos,一种自然语言反馈增强的验证器,并通过自动生成的训练数据和两阶段训练范式进行有效训练和高效推理。实验结果表明,仅使用30k个自然语言反馈即可显著提高验证器的准确性。作者已经发布了代码和数据,方便进一步探索。
- 最近的相关研究包括使用深度学习的数学验证方法和基于自然语言处理的数学问题解决方法。
沙发等你来抢
去评论
评论
沙发等你来抢