Tina: Tiny Reasoning Models via LoRA

2025年04月22日
  • 简介
    如何以最具成本效益的方式在语言模型中实现强大的推理能力?基于这一核心问题,我们提出了 Tina,这是一组以极高成本效益实现的微型推理模型。值得注意的是,Tina 展示了仅通过最少资源即可显著提升推理性能的可能性。具体而言,该方法通过对一个仅有 1.5B 参数的小型基础模型应用低秩适应(LoRA)技术,在强化学习(RL)过程中进行参数高效的更新。这种极简主义方法生成的模型在推理性能上能够与基于相同基础模型的现有最先进(SOTA)RL 推理模型相媲美,甚至在某些情况下超越它们,同时其计算成本仅为现有 SOTA 模型的一小部分。事实上,表现最佳的 Tina 模型在 AIME24 数据集上实现了超过 20% 的推理性能提升,并达到了 43.33% 的 Pass@1 准确率,而其后训练和评估的总成本仅为 9 美元(即估计成本减少了 260 倍)。我们的研究揭示了通过 LoRA 实现高效 RL 推理的惊人效果。我们通过多个开源推理数据集以及各种消融实验验证了这一点,所有实验均从单一固定超参数集开始。此外,我们推测 LoRA 的高效性和有效性源于其能够快速使模型适应由 RL 奖励的推理结构格式,同时在很大程度上保留了基础模型的底层知识。为了促进开放研究和可访问性,我们完全开源了所有代码、训练日志以及模型权重和检查点。
  • 图表
  • 解决问题
    该论文试图解决如何以低成本高效地提升语言模型的推理能力的问题。这是一个重要的问题,因为当前许多高性能推理模型需要巨大的计算资源和成本,而本文探索了一种更经济高效的方法。
  • 关键思路
    论文提出了一种名为Tina的小型推理模型系列,通过在已经较小的1.5B参数基础模型上应用低秩适配(LoRA)进行参数高效的强化学习更新,从而显著提升推理性能。相比直接对大规模模型进行微调,这种方法大幅降低了计算成本,同时保持了甚至超越了一些现有方法的性能。
  • 其它亮点
    实验结果表明,最佳的Tina模型在AIME24数据集上实现了超过20%的推理性能提升,并达到43.33%的Pass@1准确率,而其后训练和评估成本仅为9美元,相当于传统方法成本的约1/260。此外,作者在多个开源推理数据集上验证了模型的有效性,并完全开源了代码、训练日志以及模型权重和检查点,为后续研究提供了便利。未来可以进一步探索LoRA在其他任务上的适应性和扩展性。
  • 相关研究
    近期相关研究包括:1) 使用大规模参数模型进行推理优化的研究,例如OpenAI的GPT-4和DeepMind的Gemini;2) 针对参数效率的微调技术,如Google提出的P-Tuning和Microsoft的BitFit;3) 强化学习结合语言模型的研究,如Stanford的RLHF方法和阿里巴巴通义千问的强化学习实践。这些研究大多集中在大规模模型或更高成本的技术路径上,而Tina则展示了小规模模型在推理任务中的潜力。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论