- 简介监督微调(SFT)通常用于训练语言模型,以模仿给定指令的标注回答。在本文中,我们挑战了这一范式,并提出了批评微调(CFT),即让模型学习批评有噪声的回答,而不仅仅是简单地模仿正确的回答。受人类学习过程的启发,这些过程强调批判性思维,CFT鼓励更深入的分析和细致的理解——这些特质常常被标准的SFT所忽视。为了验证CFT的有效性,我们从WebInstruct构建了一个包含5万个样本的数据集,使用GPT-4作为教师生成批评对([查询;有噪声的回答],批评)。在这个数据集上进行CFT,在六个不同的数学基准测试中,与SFT相比,使用如Qwen2.5、Qwen2.5-Math和DeepSeek-Math等基础模型时,CFT表现出了一致的4-10%的提升。我们进一步扩展到MetaMath和NuminaMath数据集,并观察到与SFT相似的改进。值得注意的是,我们的模型Qwen2.5-Math-CFT仅需在8个H100 GPU上用1小时的时间训练5万个样本,就能在大多数基准测试中匹配或超越像Qwen2.5-Math-Instruct这样的强劲对手,后者使用了超过200万个样本。此外,它还能匹敌SimpleRL的表现,而SimpleRL是通过140倍更多的计算资源训练的deepseek-r1复现版本。消融研究表明,CFT对有噪声的回答来源和教师批评模型具有鲁棒性。通过这些发现,我们认为CFT为推进语言模型的推理能力提供了一种更为有效的替代方案。
- 图表
- 解决问题该论文试图挑战当前监督微调(SFT)的范式,提出一种新的训练语言模型的方法——批评微调(CFT),以改进语言模型在处理数学问题等任务上的推理能力。这并不是一个全新的问题,但提出了一个新的视角来解决现有方法中可能被忽视的问题。
- 关键思路关键思路在于让模型学习如何批评不完美的回答,而不是仅仅模仿正确的答案。这种做法受到人类批判性思维学习过程的启发,旨在鼓励更深层次的分析和理解。与传统的SFT相比,这种方法能够促使模型获得更细致的理解和更高的准确性。
- 其它亮点研究者们创建了一个包含50K样本的数据集,并使用GPT-4作为教师模型生成批评意见。实验结果显示,在多个数学基准测试上,采用CFT训练的模型比传统SFT方法提高了4-10%。值得注意的是,Qwen2.5-Math-CFT仅需1小时训练即可达到或超过其他竞争模型的表现,这些竞争模型使用的数据量是其数百倍。此外,该研究还进行了消融实验,证明了CFT对噪声源和教师批评模型的选择具有鲁棒性。目前没有提及是否开源代码,但此研究为未来的工作提供了新的方向,特别是在减少训练资源消耗方面。
- 近期在这个领域内的相关研究包括:1)《Reinforcement Learning from Human Feedback》探讨了通过人类反馈强化学习提升对话系统质量;2)《Learning to Summarize with Human Feedback》研究了结合人类反馈进行文本摘要生成;3)《Improving Language Models by Retrieval Augmentation》讨论了利用检索增强技术改进语言模型性能。以上研究均尝试从不同角度优化语言模型的表现,而本篇论文则专注于通过批评机制提升模型推理能力。
沙发等你来抢
去评论
评论
沙发等你来抢