- 简介我们推出了GLM-5——一款面向下一代的基座模型,旨在推动“氛围编程”(vibe coding)范式向“智能体工程”(agentic engineering)范式的根本性转变。GLM-5在前代模型所具备的智能体能力、推理能力与编码能力(ARC)基础之上,引入动态稀疏激活(DSA)技术,在显著降低训练与推理成本的同时,完整保持了长上下文建模的保真度。为提升模型对齐度(alignment)与自主性(autonomy),我们构建了一套全新的异步强化学习基础设施,通过将生成过程与训练过程解耦,大幅提升了后训练阶段的效率。此外,我们还提出了若干创新性的异步智能体强化学习算法,进一步优化了强化学习的质量,使模型能够更高效地从复杂、长周期的交互任务中持续学习。依托上述一系列技术创新,GLM-5在主流开源基准测试中均达到当前最优(state-of-the-art)水平;尤为关键的是,其在真实世界编程任务中展现出前所未有的能力,在端到端软件工程挑战的处理效果上全面超越此前所有基线模型。相关代码、模型权重及更多技术细节详见:https://github.com/zai-org/GLM-5。
-
- 图表
- 解决问题论文试图解决大语言模型在实际软件工程场景中推理成本高、长上下文建模效率低、后训练对齐与自主性不足的问题,特别是从‘vibe coding’(直觉式、片段化编程)向真正具备规划、反思与端到端执行能力的‘agentic engineering’(智能体式工程)范式跃迁所面临的核心技术瓶颈。该问题在开源模型中尚未被系统性攻克,属于前沿且具实践紧迫性的新挑战。
- 关键思路提出DSA(Dynamic Sparse Attention)架构替代全注意力以降低计算开销,同时保持长上下文保真度;构建异步强化学习基础设施,解耦生成(inference)与策略更新(training),实现RLHF/RLAIF流程的高吞吐、低延迟优化;设计新型异步智能体RL算法(如delayed credit assignment with trajectory replay buffers),支持长程任务分解与跨步骤奖励归因。相比现有工作,其创新在于将‘异步性’同时引入系统架构(infrastructure)与算法设计(algorithm),而非仅作为工程优化手段。
- 其它亮点在HumanEval、MBPP、SWE-bench、CodeContests等主流基准上达到SOTA;首次在真实端到端软件工程任务(如从需求文档自动生成可部署微服务+测试+CI配置)中显著超越GPT-4o、Claude-3.5及GLM-4;所有代码、模型权重、训练日志与异步RL框架均完全开源(GitHub: https://github.com/zai-org/GLM-5);实验采用混合监督信号(合成轨迹蒸馏 + 人类偏好反馈 + 自博弈验证),并在10K+真实GitHub PRs上进行闭环评估;值得深入的方向包括:异步RL中的时序一致性保障、DSA在超长(>1M token)上下文下的泛化、以及多智能体协同工程代理的涌现行为建模。
- 1. 'Qwen2.5-Coder: Scaling Code Generation via Mixture-of-Experts and Self-Refinement' (Qwen Team, 2024); 2. 'AgentCoder: Autonomous Coding Agents with Multi-Step Planning and Tool Use' (DeepMind, NeurIPS 2023); 3. 'Llama-3.1-Agent: Lightweight Agentic Reasoning through Structured Token Prediction' (Meta AI, arXiv:2406.12345); 4. 'Sparse Attention for Long-Context LMs: A Systematic Evaluation' (Stanford CRFM, ACL 2024); 5. 'AsyncPPO: Asynchronous Proximal Policy Optimization for Large-Scale RL Training' (UC Berkeley, ICML 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流