Kimi K2: Open Agentic Intelligence

2025年07月28日
  • 简介
    我们推出了 Kimi K2,这是一款基于专家混合(MoE)架构的大型语言模型,包含 320 亿激活参数和总计 1 万亿参数。我们提出了 MuonClip 优化器,它在 Muon 的基础上引入了一种新颖的 QK-clip 技术,从而在保持 Muon 优异的 token 利用效率的同时,有效缓解了训练过程中的不稳定性问题。基于 MuonClip,K2 在 15.5 万亿 token 的数据上进行了预训练,并在整个训练过程中实现了零损失尖峰。 在后训练阶段,K2 经历了一个多阶段的后训练流程,其中主要包括一个大规模的智能体数据合成流水线,以及一个联合强化学习(RL)阶段,在此阶段中,模型通过与真实环境和合成环境的交互不断提升其能力。 Kimi K2 在开源非“思考”类模型中达到了当前最先进的性能水平,尤其在具备智能体能力方面表现突出。具体而言,K2 在 Tau2-Bench 上得分为 66.1,在 ACEBench(英文版)上得分为 76.5,在 SWE-Bench Verified 上得分为 65.8,在 SWE-Bench 多语言版上得分为 47.3,全面超越了大多数在非思考设定下的开源和闭源基线模型。此外,K2 在编程、数学和推理任务中也展现出强大的能力,其在 LiveCodeBench v6 上的得分为 53.7,在 AIME 2025 上得分为 49.5,在 GPQA-Diamond 上得分为 75.1,在 OJBench 上得分为 27.1,且这些成绩均是在不依赖扩展性思考的前提下取得的。这些结果表明,Kimi K2 是迄今为止最具能力的开源大型语言模型之一,尤其在软件工程和智能体任务方面表现优异。我们已公开发布基础模型和后训练模型的检查点,以促进未来对智能体智能的研究与应用。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文旨在解决大规模语言模型在训练和推理阶段的不稳定性问题,同时提升其在代理能力(agentic capabilities)相关任务上的表现。这类问题在当前研究中尚未被充分解决,尤其是在非思考(non-thinking)模型设置下。
  • 关键思路
    论文提出了一种新的优化器MuonClip,基于Muon并引入QK-clip技术,有效缓解训练过程中的不稳定现象。同时,Kimi K2模型采用了多阶段的后训练流程,包括大规模代理数据合成和联合强化学习阶段,以提升模型在真实和合成环境中的交互能力。这一思路结合了优化器改进与代理式训练流程设计,具有较强的系统性创新。
  • 其它亮点
    1. Kimi K2是一个具有320亿激活参数和1万亿总参数的MoE模型,预训练了15.5万亿token且未出现损失尖峰。 2. 在多个代理任务基准测试中表现优异,如Tau2-Bench、ACEBench、SWE-Bench等,超越大多数开源和闭源模型。 3. 在无需扩展思考时间的情况下,Kimi K2在编程、数学和推理任务中也表现出色,例如LiveCodeBench v6、AIME 2025和GPQA-Diamond。 4. 模型的基线和后训练检查点均已开源,有助于推动代理智能的研究和应用。
  • 相关研究
    1. Google DeepMind的Chinchilla模型,强调训练效率和参数扩展。 2. Meta的LLaMA系列模型,作为开源语言模型的基础。 3. OpenAI的GPT系列,尤其是GPT-4在代理任务和推理任务中的表现。 4. 近期关于MoE结构的研究,如Google的GLaM模型。 5. 关于训练稳定性和优化技术的研究,如ZeRO优化器和梯度裁剪方法。 6. 强化学习在语言模型后训练中的应用,如DeepMind的AlphaCode项目。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问