- 简介提升大语言模型(LLMs)的推理能力通常依赖于海量计算资源和广泛的训练数据集,这在资源受限的情况下限制了其可用性。我们的研究探讨了强化学习(RL)在改进小型语言模型推理能力方面的潜力,重点针对一个包含15亿参数的模型——DeepSeek-R1-Distill-Qwen-1.5B,并在严格限制下进行训练:仅使用4块NVIDIA A40 GPU(每块48 GB VRAM),且总训练时间控制在24小时内。通过调整组相对策略优化(GRPO)算法并精心构建一个高质量的小型数学推理数据集,我们开展了三项实验以探索模型的行为与性能表现。结果显示,模型的推理能力迅速提升,例如AMC23的准确率从63%提高到80%,AIME24达到了46.7%,超过了o1-preview版本。这些成果仅基于7,000个样本,训练成本仅为42美元,而传统基线模型的训练费用则需数千美元。然而,在长时间训练过程中也出现了诸如优化不稳定性和长度限制等问题。这些发现表明,基于强化学习的微调方法对小型语言模型非常有效,为大规模方法提供了一种经济高效的替代方案。我们已将代码和数据集作为开源资源发布,帮助研究者理解其中的权衡,并为在资源有限环境中开发可扩展、具备推理能力的语言模型奠定基础。所有资源均可在以下地址获取:https://github.com/knoveleng/open-rs。
- 图表
- 解决问题论文试图解决如何在资源受限环境下提升小型语言模型的推理能力问题,尤其是通过低成本、高效的方法来增强其数学推理表现。这是一个重要但尚未被充分探索的问题,尤其是在大规模预训练模型主导的背景下。
- 关键思路关键思路是利用强化学习(特别是改进后的GRPO算法)对小型LLM进行微调,以提升其推理能力。相比传统的监督学习或大规模数据扩展方法,这种方法使用了精心设计的小规模高质量数据集,并在有限计算资源下实现了显著性能提升。这种RL-based fine-tuning方式为资源受限环境下的模型优化提供了新路径。
- 其它亮点实验设计包括三个具体任务(AMC23、AIME24等),验证了模型在数学推理上的快速进步;仅用7,000个样本和较低成本($42)就达到了超越基线模型的表现。此外,作者开源了代码和数据集(https://github.com/knoveleng/open-rs),为后续研究提供了宝贵资源。未来可以进一步探索优化稳定性以及更长序列的处理能力。
- 相关研究包括:1) 使用监督学习微调小型LLM(如Stanford Alpaca系列);2) 强化学习在大型模型中的应用(如DeepMind的AlphaCode和OpenAI的Codex);3) 高效推理增强方法(如Google的FLAN系列)。一些相关论文标题包括《Scaling Laws for Transfer Learning》、《Reinforcement Learning with Human Feedback》和《Fine-Tuning Language Models from Human Preferences》。
沙发等你来抢
去评论
评论
沙发等你来抢