Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency

谷歌继两个月前发布Gemma 4后，持续优化其性能：先引入多令牌预测（MTP）加速推理，随后推出12B模型填补E4B与26B MoE之间的空白。现新增量化感知训练（QAT）优化的检查点，显著提升本地部署效率，支持日常边缘设备和消费级GPU运行。QAT在训练中模拟量化过程，最大限度减少压缩导致的质量损失。本次发布包含主流Q4_0格式及专为移动端设计的新量化格式；后者将Gemma 4 E2B内存占用降至仅1GB。整体大幅降低内存需求，同时保持Gemma 4原有的能力与输出质量。（200字）

本专栏通过快照技术转载，仅保留核心内容