NEW

K2-V2: A 360-Open, Reasoning-Enhanced LLM

K2 Team ,

Zhengzhong Liu ,

Liping Tang ,

Linghao Jin ,

Haonan Li ,

Nikhil Ranjan ,

Desai Fan ,

Shaurya Rohatgi ,

Richard Fan ,

Omkar Pangarkar ,

Huijuan Wang ,

Zhoujun Cheng ,

Suqi Sun ,

Seungwook Han ,

Bowen Tan ,

Gurpreet Gosal ,

Xudong Han ,

Varad Pimpalkhute ,

Shibo Hao ,

Ming Shan Hee ,

Joel Hestness ,

Haolong Jia ,

Liqun Ma ,

Aaryamonvikram Singh ,

Daria Soboleva ,

Natalia Vassilieva ,

Renxi Wang ,

Yingquan Wu ,

Yuekai Sun ,

Taylor Killian ,

Alexander Moreno ,

John Maggs ,

Hector Ren ,

Guowei He ,

Hongyi Wang ,

Xuezhe Ma ,

Yuqi Wang ,

Mikhail Yurochkin ,

Eric P. Xing

热度 26

2025年12月05日

简介

我们推出了K2-V2，这是一款从零构建的360度开放大语言模型，在具备通用大模型所拥有的对话和知识检索等功能之外，更作为推理能力适配的卓越基础。该模型是目前最强大的完全开源模型，性能可与同规模类别中领先的开源权重模型相媲美，超越Qwen2.5-72B，并接近Qwen3-235B的表现。在整个训练过程中，我们主动融入了领域知识、推理能力、长上下文处理以及工具使用等关键要素，从而显式地为模型应对复杂推理任务做好准备。通过简单的监督微调，我们验证了这一潜力，建立了一个强有力的基线，表明在高级对齐方面仍存在巨大的提升空间。我们公开了完整的训练历史和数据构成，以最大限度地提升持续训练的有效性——这是开源生态中一个关键的生产场景。同时，我们发布了模型权重以及LLM360系列的核心成果，包括完整的训练数据，旨在为社区提供一个强大且以推理为核心的基础模型。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决当前开源大语言模型在复杂推理任务上的不足，尤其是在推理能力、长上下文理解、工具使用和领域知识融合方面的局限性。尽管已有许多强大的开源模型，但它们大多未从底层专门针对推理进行优化。K2-V2试图验证：一个从零开始构建、专门强化推理适应性的360开放LLM，能否在保持通用能力的同时，在推理性能上超越现有同规模甚至更大模型，成为一个更优的开源基础模型。
关键思路

提出并构建K2-V2——一个从头设计的360开放大语言模型，其核心创新在于在整个训练过程中系统性地注入推理能力、领域知识、长上下文处理和工具使用能力，而非仅依赖后训练对齐。与主流方法不同，该模型不是基于现有架构微调，而是作为推理优先的基座模型进行端到端训练，为后续简单监督微调即可实现强大推理表现奠定基础。
其它亮点

1. 模型性能强劲：K2-V2在多个基准上超越Qwen2.5-72B，并接近Qwen3-235B的表现，成为当前最强的完全开源模型之一；2. 完全透明开放：不仅发布模型权重，还公开完整训练历史、数据组成和LLM360关键组件，极大支持社区持续训练与复现；3. 实验设计简洁有效：通过简单的监督微调即展现出强大潜力，表明基座模型质量高、对齐空间大；4. 数据集未明确列出具体名称，但强调训练数据构成完全公开；代码是否开源虽未明说，但‘LLM360 artifacts’暗示配套资源丰富；值得深入研究的方向包括：如何将领域知识结构化注入训练、长上下文机制的具体实现、以及基于此基座发展高级推理与智能体能力。
相关研究

1. Qwen2.5: A Strong Open-Source Foundation Model for General and Efficient Inference 2. Qwen3: Advancing Large Language Models with Enhanced Reasoning and Multilingual Capabilities 3. Llama-3: Open Innovation in Large Language Modeling 4. DeepSeek-R1: Progress Toward AGI through Reinforcement Learning from Sparse Feedback 5. Phi-3: A Family of Compact Language Models from Microsoft 6. Starling-3: Training a Helpful and Harmless Assistant with Reinforcement Learning

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问