ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

2024年04月03日
  • 简介
    大型语言模型(LLMs)在掌握人类语言方面表现出色,但在需要数学问题解决的实际应用中仍然存在困难。虽然已经开发出许多增强LLMs数学能力的策略和数据集,但在部署的LLM系统中同时保持和提高语言和数学能力仍然是一个挑战。在这项工作中,我们定制了自我批评管道,解决了LLM对齐的反馈学习阶段中的挑战。我们首先从LLM本身中训练出一个通用的Math-Critique模型来提供反馈信号。然后,我们依次采用拒绝微调和直接优化LLM自身生成的数据收集。基于ChatGLM3-32B,我们在学术界和我们新创建的具有挑战性的数据集MathUserEval上进行了一系列实验。结果表明,我们的管道显著增强了LLM的数学问题解决能力,同时仍然提高了其语言能力,优于可能是两倍大的LLMs。相关技术已经部署到在线服务的LLM ChatGLM\footnote{\url{https://chatglm.cn}}上。相关评估数据集和脚本已经在\url{https://github.com/THUDM/ChatGLM-Math}上发布。
  • 图表
  • 解决问题
    如何同时提高大型语言模型(LLM)的语言能力和数学问题解决能力?
  • 关键思路
    使用Self-Critique pipeline,从LLM自身生成的文本中提取反馈信号,采用拒绝微调和直接优化两种策略进行数据收集,从而提高LLM的数学问题解决能力,同时改善其语言能力。
  • 其它亮点
    论文在ChatGLM3-32B和新创建的MathUserEval数据集上进行了实验,结果表明使用Self-Critique pipeline可以显著提高LLM的数学问题解决能力,同时改善其语言能力,表现优于两倍大小的LLM。相关技术已经应用于在线服务的ChatGLM,并且相关的评估数据集和代码已经开源。
  • 相关研究
    近期相关研究包括:1.《Improving Language Understanding by Generative Pre-Training》;2.《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》;3.《MathQA: Towards Interpretable Math Word Problem Solvers》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论