- 简介我们推出了 Laguna M.1 和 Laguna XS.2 两款面向长周期、具身智能(agentic)编程任务的混合专家(Mixture-of-Experts)基础模型:M.1 总参数量为 2258 亿(每处理一个词元激活 234 亿参数),XS.2 总参数量为 334 亿(每处理一个词元激活 30 亿参数)。两款模型均在我们内部构建的统一系统——“模型工厂”(Model Factory)中,从零开始端到端完成训练。“模型工厂”是一套高度集成的系统栈,涵盖版本化数据管理、模型训练、评估与推理等全部组件,旨在将模型研发流程工业化、标准化。本文详细阐述了“模型工厂”的设计原则与关键架构选择,并完整梳理了我们模型的端到端训练流程,涵盖预训练阶段的数据构建与模型架构设计、训后各阶段(如监督微调、强化学习等)、系统性评估,以及模型量化等环节。 在具身智能软件工程与终端操作类基准测试(包括 SWE-bench Verified、SWE-bench Multilingual、SWE-Bench Pro 和 Terminal-Bench 2.0)上,M.1 与 XS.2 在各自参数量级的开源模型中均展现出与当前最优水平相当的竞争力。Laguna XS.2 的模型权重已依据 Apache 2.0 开源协议发布,可通过以下链接获取:https://huggingface.co/collections/poolside/laguna-xs2。
-
- 图表
- 解决问题论文旨在解决长周期、具身式(agentic)软件工程任务中的代码生成与执行能力问题,特别是面向终端交互、多步推理和跨语言真实世界编程任务(如SWE-bench系列和Terminal-Bench 2.0)的建模挑战。这不是全新问题,但将MoE架构系统性地端到端训练用于高保真、长视野代理编码任务,并在工业级闭环系统中实现可复现、可版本化的模型开发,是面向生产化AI工程师的新范式探索。
- 关键思路提出‘Model Factory’——一个版本化、全栈集成的模型工业化生产系统(涵盖数据、训练、评估、推理),并基于该系统从零训练两个专为agentic coding优化的稀疏MoE模型(Laguna M.1和XS.2)。关键新意在于:1)不依赖指令微调或RLHF,全程端到端预训练+后训练;2)MoE设计兼顾激活参数效率(XS.2仅3B/token)与长上下文代理能力;3)将模型开发抽象为可重复、可审计的工程流水线,而非实验性迭代。
- 其它亮点在SWE-bench Verified、Multilingual、Pro及Terminal-Bench 2.0上达到同量级开源模型SOTA;XS.2(33.4B总参/3B激活)权重已Apache 2.0开源于Hugging Face;完整训练流程覆盖预训练数据构建(含代码、终端日志、多语言文档)、架构设计(专家路由、长上下文适配)、后训练(无监督强化对齐)、量化部署(INT4/FP8);实验强调终端交互真实性(非仅静态代码补全);值得深入的方向包括:MoE动态专家调度与工具调用对齐、终端环境仿真蒸馏、Factory范式向多模态agent迁移。
- CodeLlama-70B (Meta, 2023); DeepSeek-Coder (DeepSeek, 2024); StarCoder2 (BigCode, 2024); OctoCoder (Salesforce, 2024); SWE-agent (Princeton & Google, 2024); CodeAct (UC Berkeley, 2024); OpenHands (All Hands, 2024); Llama-3.1-405B (Meta, 2024, dense baseline); Mixtral 8x7B (Mistral, 2023, early MoE for coding)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流