
新智元报道
新智元报道
【新智元导读】本研究提出了一种创新的自回归搜索方法,通过两阶段训练框架,小规模格式调优和大规模自我优化,开发出了Satori,一个在数学推理和跨领域任务中均表现优异的7B参数模型。Satori通过自我反思和探索策略,展现了强大的迁移能力和自我纠错能力。
小规模格式调优阶段:让LLM熟悉并掌握COAT推理格式。
大规模自我优化阶段:运用重启与探索(RAE)技术,通过RL进行优化。

无需外部指导,即可自我反思与探索。
主要依靠自我改进(RL),实现了最先进的推理性能。
展现出强大的迁移能力,可应用于数学以外的领域。
论文地址:https://arxiv.org/pdf/2502.02508
Satori关键设计
研究者把LLM的推理过程看作一个顺序决策问题,其中推理就是逐步构建并完善答案的过程。 具体来说,LLM从输入上下文(初始状态)开始,生成一个推理步骤(动作),并更新上下文(下一个状态)。 LLM会重复这个过程,直到得出最终答案。根据最终答案与真实答案的匹配程度,给予LLM奖励。 通过这种方式,用RL来训练LLM进行推理,旨在让LLM生成一系列推理步骤,以最大化期望奖励。
行动-思维链推理(COAT)
继续推理(<|continue|>):鼓励LLM依据当前的推理思路,生成下一个中间步骤。
反思(<|reflect|>):提醒模型暂停下来,验证之前的推理步骤是否正确。
探索替代解决方案(<|explore|>):提示模型识别推理中的关键漏洞,并探索新的解决方案。
对元动作tokens缺乏认知:如果没有经过训练,LLM在遇到特殊的元动作tokens时,不会意识到需要反思或者寻找替代解决方案。
长期决策与奖励稀疏:推理涉及长期决策,而奖励仅在最终阶段给出。这意味着LLM必须在得到奖励之前,连续做出多个正确的推理步骤,一旦出错,就只能从初始状态重新开始。因为奖励非常稀缺,而奖励对于RL至关重要,这大大增加了学习难度。
通过模仿学习进行格式调优
生成器:给定一个输入问题,生成器会运用经典的链式思维(CoT)技术,生成多个推理路径。
Critic:负责评估生成器生成的推理路径是否正确,同时提供反馈以优化推理过程,修正不合理的步骤。
奖励模型:对优化后的推理路径打分,挑选出最有效的路径,作为最终的示范轨迹。
通过RL进行自我提升

评估结果
大量实验结果显示,Satori在数学推理基准测试中取得了最佳成绩,在不同领域的任务上也有很强的泛化能力。 研究者选择Qwen-2.5-Math-7B作为基础模型,因为它在数学方面能力很强。训练数据来源于公开的数学指令数据集,包括OpenMathInstruct-2和NuminaMathCoT。 在多智能体数据合成框架中,生成器需生成高质量的逐步推理轨迹,因此选用Qwen-2.5-MathInstruct。而评论者需要有很强的指令跟随能力,于是选了Llama3.1-70B-Instruct。 表中展示了数学基准测试的结果,Satori-Qwen-7B在所有小规模基线模型中表现最佳。 尽管Satori-Qwen-7B使用了与Qwen-2.5-Math-7B-Instruct相同的基础模型,其性能明显优于后者,所需的SFT数据显著减少,并更多依赖于自我改进。 
同时在数学领域之外的广泛基准测试上进行了评估,包括逻辑推理(FOLIO、BGQA)、代码推理(CEUXEval)、常识推理(StrategyQA)、表格推理(TableBench)以及特定领域推理(MMLUPro的STEM子集),覆盖物理、化学、计算机科学、工程学、生物学和经济学。 尽管Satori-Qwen-7B只在数学领域的数据集上训练过,但它的推理能力同样适用于其他领域。 表中展示了Satori-Qwen-7B在跨领域基准测试中的表现。 
和在数学领域的表现类似,Satori-Qwen-7B在多个基准测试里成绩优异,超过了Qwen-2.5-Math-7B-Instruct。 特别是在难度较高的BoardgameQA推理基准测试中,Satori-Qwen-7B的表现优于所有同规模的基线模型。 这些结果表明,Satori-Qwen-7B不仅掌握了数学解题技能,还具备了通用的推理能力。 最后一行展示了Satori第二轮训练的结果。与Satori-Qwen-7B相比,Satori-Qwen-7B(Round 2)在大多数领域表现出持续的性能提升。 这表明迭代自我改进在提升LLM推理性能方面具有显著的潜力。


Satori展现自我纠错能力

RL使Satori具备测试时扩展能力

蒸馏实现从弱到强的泛化能力

通过小规模的格式调优与大规模RL相结合,训练出像Satori-Qwen-7B这样的强推理模型。 运用蒸馏的方式,将这个强推理模型的能力转移到较弱的基础模型中。



内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢