谷歌继两个月前发布Gemma 4后,持续优化其性能:先引入多令牌预测(MTP)加速推理,随后推出12B模型填补E4B与26B MoE之间的空白。现新增量化感知训练(QAT)优化的检查点,显著提升本地部署效率,支持日常边缘设备和消费级GPU运行。QAT在训练中模拟量化过程,最大限度减少压缩导致的质量损失。本次发布包含主流Q4_0格式及专为移动端设计的新量化格式;后者将Gemma 4 E2B内存占用降至仅1GB。整体大幅降低内存需求,同时保持Gemma 4原有的能力与输出质量。(200字)

本专栏通过快照技术转载,仅保留核心内容

内容中包含的图片若涉及版权问题,请及时与我们联系删除