Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem

2025年06月03日
  • 简介
    我们观察到,像通义千问数学模型(Qwen-Math)、MiMo 和 Phi-4 这样的强大语言模型,从预训练阶段继承了巨大的推理潜力。通过强化学习(RL),这些模型在推理任务上的表现可以显著提升。最近的研究表明,即使针对单一问题的强化学习也能释放这些模型的推理能力。然而,强化学习不仅成本高昂,而且稳定性较差。即使是单次强化学习,也需要数百个 GPU 小时的计算资源。这引发了一个关键问题:是否存在一种更高效的方法来释放这些强大基础语言模型的推理潜力?在本研究中,我们证明了仅针对单一问题进行的“批判性微调”(CFT)可以有效释放大语言模型的推理潜力。我们的方法通过收集单一问题的多样化模型生成解决方案,并利用教师模型提供详细批评,构建批判性数据集。我们对参数规模从 15 亿到 140 亿的通义千问和 Llama 系列模型进行了 CFT 微调,在多种推理任务中观察到了显著的性能提升。例如,仅需 5 个 GPU 小时的训练,Qwen-Math-7B-CFT 在六个数学基准测试上平均提升了 15%,在三个逻辑推理基准测试上提升了 16%。这些结果与使用 20 倍计算资源的强化学习方法相当,甚至更优。消融实验表明,单次 CFT 方法在不同提示问题下具有较强的鲁棒性。这些结果突显了单次 CFT 作为一种简单、通用且计算高效的手段,能够有效释放现代大语言模型的推理能力。
  • 图表
  • 解决问题
    论文试图解决如何以更高效的方式释放大型语言模型(LLMs)在推理任务中的潜力问题。这是一个重要但尚未完全解决的问题,尤其是在强化学习(RL)方法成本高且不稳定的情况下。
  • 关键思路
    论文提出了一种名为Critique Fine-Tuning(CFT)的新方法,通过针对单一问题生成多样化的模型解答,并利用教师模型提供详细批评来构建训练数据。这种方法仅需少量计算资源即可显著提升模型在多种推理任务上的表现,相比传统的RL方法更加高效和稳定。
  • 其它亮点
    实验设计包括对多个数学和逻辑推理基准的评估,展示了CFT方法的有效性。例如,Qwen-Math-7B-CFT在数学和逻辑推理任务上分别提升了15%和16%,而仅需5 GPU小时的训练时间。此外,论文还进行了消融研究以验证CFT方法在不同提示问题上的鲁棒性。代码和数据集未明确提及是否开源,但未来可以进一步探索多任务CFT或更大规模模型的应用。
  • 相关研究
    相关研究包括使用强化学习优化LLM推理能力的工作,如Chain of Thought RL、Reward Modeling等。其他类似的研究还包括:1) 'Reasoning with Language Models: A Survey';2) 'Reinforcement Learning for Reasoning in Large Language Models';3) 'Few-shot Reasoning via Prompting and Critiquing'。这些工作主要关注如何通过不同的训练策略提高LLM的推理性能。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论