Apriel-Nemotron-15B-Thinker

2025年08月13日
  • 简介
    尽管大型语言模型(LLMs)在代码、数学以及其他企业任务等多个领域展现出卓越的推理能力,但其高昂的内存和计算成本常常限制了它们在实际企业环境中的应用。为此,我们推出了ServiceNow Apriel SLM系列中的Apriel-Nemotron-15B-Thinker模型,这是一个拥有150亿参数的模型,在性能上能够媲美o1-mini、QWQ32B和EXAONE-Deep-32B等中型最先进模型,同时内存占用却仅为这些模型的一半。 Apriel-Nemotron-15B-Thinker模型通过一个四阶段的训练流程完成训练,包括:1)基础模型升级;2)持续预训练;3)监督微调(SFT);以及4)使用GRPO进行强化学习。在多种基准测试中的全面评估一致表明,尽管参数规模不到其一半,我们的Apriel-Nemotron-15B-Thinker模型在性能上仍然能够达到甚至超越那些320亿参数竞品模型的表现。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决大语言模型(LLMs)在实际企业应用中由于内存和计算成本过高而难以部署的问题。该问题在当前LLM研究中具有普遍性,但针对企业场景的高效模型优化仍然是一个相对较新的研究方向。
  • 关键思路
    提出Apriel-Nemotron-15B-Thinker,一个参数量仅为150亿的模型,通过四阶段训练流程(包括基础模型扩展、持续预训练、监督微调和基于GRPO的强化学习),在多个任务上达到甚至超越320亿参数模型的性能,同时内存占用减少一半。其创新点在于高效模型设计与训练策略的结合。
  • 其它亮点
    1. 模型在多个基准测试中表现优于或与当前主流的32B参数模型相当,如o1-mini、QWQ32B和EXAONE-Deep-32B。 2. 训练流程包括强化学习阶段(GRPO),有助于提升推理和任务适应能力。 3. 内存占用显著降低,适合企业部署,尤其是在资源受限场景。 4. 论文未提及是否开源代码或具体数据集细节,但提到综合评估使用了多样化的基准测试集。 5. 未来可深入研究模型压缩技术与训练策略的进一步结合,以及在真实企业场景中的泛化能力。
  • 相关研究
    1. Training Compute-Efficient Large Language Models for Enterprise Applications 2. QWQ: Training 32B Parameter Models with Enhanced Reasoning Capabilities 3. EXAONE-Deep: A 32B Parameter Model for Enterprise Tasks 4. o1-mini: A Compact Model for High-Performance Reasoning Tasks 5. GRPO: Generalized Reinforcement Learning for Language Model Optimization
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问