ReFT: Reasoning with Reinforced Fine-Tuning

2024年01月17日
  • 简介
    提升大型语言模型(LLMs)的推理能力的一种方法是使用Chain-of-Thought(CoT)注释进行监督微调(SFT)。然而,这种方法的泛化能力不够强,因为训练仅依赖于给定的CoT数据。例如,在数学问题求解中,训练数据中通常只有一个注释的推理路径。直观地说,如果算法能够在给定问题的情况下从多个注释的推理路径中学习,那将更好。为了解决这个问题,我们提出了一种简单而有效的方法,称为强化微调(ReFT),以增强用于推理的学习LLMs的泛化能力,以数学问题求解为例。ReFT首先使用SFT热身模型,然后采用在线强化学习,具体来说,在本文中使用PPO算法进一步微调模型,其中自动从问题中采样大量推理路径,并且奖励自然地来自于基本事实的答案。 GSM8K、MathQA和SVAMP数据集上的广泛实验表明,ReFT明显优于SFT,并且性能可以通过组合推理时间策略(例如多数投票和重新排序)进一步提高。请注意,ReFT通过从与SFT相同的训练问题中学习而不依赖于额外或增强的训练问题来获得改进。这表明ReFT具有更强的泛化能力。
  • 图表
  • 解决问题
    本论文旨在提高大型语言模型(LLMs)的推理能力,以数学问题解决为例。作者提出了一种名为Reinforced Fine-Tuning(ReFT)的方法,旨在通过在线强化学习来进一步微调模型,从而提高其泛化能力。
  • 关键思路
    ReFT方法首先使用Supervised Fine-Tuning(SFT)对模型进行预热,然后使用在线强化学习,具体来说是PPO算法,进一步微调模型,从而学习多种推理路径,以提高泛化能力。
  • 其它亮点
    论文在GSM8K、MathQA和SVAMP数据集上进行了广泛实验,结果显示ReFT显著优于SFT,并且可以通过结合多数投票和重新排序等推理策略进一步提高性能。值得关注的是,ReFT仅使用与SFT相同的训练问题,而不依赖于额外或增强的训练问题,表现出更强的泛化能力。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如《Chain-of-Thoughts: A Neural Approach for Coherent Math Problem Solving》和《MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论