AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale

2025年05月13日
  • 简介
    我们推出了 AM-Thinking-v1,这是一款 320 亿参数的密集型语言模型,它在推理能力方面取得了新的突破,并体现了开源创新的合作精神。AM-Thinking-v1 在性能上超越了 DeepSeek-R1,并与领先的专家混合模型(MoE)如 Qwen3-235B-A22B 和 Seed1.5-Thinking 相媲美,在 AIME 2024 上取得了 85.3 分、AIME 2025 上取得了 74.4 分、以及在 LiveCodeBench 上取得了 70.3 分,展示了其在同规模开源模型中一流的数学和编程能力。 AM-Thinking-v1 完全基于开源的 Qwen2.5-32B 基础模型和公开可用的数据构建,并通过精心设计的后训练流程——结合有监督微调和强化学习——实现了卓越的推理能力。这项工作证明了开源社区能够在 320 亿参数这一规模上实现高性能,而这一规模是部署和微调的实际最佳选择。通过在顶级性能和实际可用性之间找到平衡,我们希望 AM-Thinking-v1 能够激励更多合作努力,以充分利用中等规模模型的优势,在推动推理边界的同时,始终将可访问性作为创新的核心。我们的模型已开源至 [Hugging Face](https://huggingface.co/a-m-team/AM-Thinking-v1)。
  • 作者讲解
  • 图表
  • 解决问题
    该论文试图解决如何在32B规模的开源模型中实现卓越的推理能力,特别是在数学和编程任务上的表现。这是一个重要但具有挑战性的问题,因为需要在性能和实际部署可行性之间找到平衡。
  • 关键思路
    论文的关键思路是通过结合监督微调和强化学习的方法,对Qwen2.5-32B开源模型进行后训练优化,以显著提升其推理能力。相比当前研究状况,这种方法不仅证明了密集模型可以在不依赖MoE架构的情况下达到顶尖性能,还展示了开源社区如何利用公开资源实现高性能模型。
  • 其它亮点
    论文设计了一系列实验,包括AIME和LiveCodeBench等基准测试,验证了AM-Thinking-v1在数学和编程任务中的出色表现。此外,模型已完全开源,可供社区进一步研究和改进。未来可以深入探索如何将类似方法应用于其他领域或更小规模的模型。
  • 相关研究
    最近的相关研究包括DeepSeek-R1、Qwen3-235B-A22B和Seed1.5-Thinking等模型的工作。这些研究主要集中在更大规模模型(如Mixture-of-Experts架构)或特定任务优化上。例如,《Scaling Laws for Neural Language Models》探讨了模型规模与性能的关系,而《Fine-Tuning Strategies for Code-Specific Tasks》则专注于代码生成领域的微调策略。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问