Calc-CMU at SemEval-2024 Task 7: Pre-Calc -- Learning to Use the Calculator Improves Numeracy in Language Models

2024年04月22日
  • 简介
    本文介绍了在语言中进行数量和数字理解的重要性以及在教育和金融等领域中的应用,但这仍然是语言模型面临的挑战性任务。虽然使用工具和计算器已被证明有助于提高大型预训练仅解码语言模型中的数学推理能力,但对于具有编码器的较小语言模型,这方面的研究还未被探索。本文提出了Pre-Calc,这是一种简单的预微调目标,旨在学习使用计算器,适用于仅编码器和编码器-解码器架构,分别被制定为鉴别和生成任务。我们在MAWPS、SVAMP和AsDiv-A数据集上预先训练BERT和RoBERTa进行鉴别式计算器使用,以及Flan-T5进行生成式计算器使用,这有助于提高需要数字理解的下游任务的性能。我们的代码和数据可在https://github.com/calc-cmu/pre-calc上获得。
  • 作者讲解
  • 解决问题
    论文旨在解决语言模型中数学理解的挑战,特别是对于小型编码器语言模型而言,探索使用计算器来提高数学推理的效果。
  • 关键思路
    论文提出了Pre-Calc,一种简单的预微调目标,旨在学习使用计算器来完成编码器和编码器-解码器架构的判别和生成任务,从而提高数值理解的表现。
  • 其它亮点
    论文使用MAWPS、SVAMP和AsDiv-A数据集对BERT、RoBERTa和Flan-T5进行预训练,这些预训练在需要数值理解的下游任务中提高了性能。论文提供了代码和数据集,可供开源使用。值得深入研究的是如何进一步提高语言模型在数学理解方面的表现。
  • 相关研究
    在这个领域中,最近的相关研究包括《Improving Math Word Problem Solvers with External Knowledge》和《Solving Math Word Problems with a Synergistic Transformer Architecture》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问