T5Gemma 2是基于Gemma 3的下一代编码器-解码器模型,首次引入多模态与长上下文支持。相比前代,它采用共享词嵌入及合并解码器自注意力与交叉注意力机制,有效减少参数量。提供270M-270M(约3.7亿)、1B-1B(约17亿)和4B-4B(约70亿)三种规模的紧凑预训练模型,适用于快速实验与终端设备部署。延续T5Gemma思路,T5Gemma 2通过初始化强大解码器模型并继续预训练,避免从零训练的高计算成本,同时提升推理效率。此次升级拓展至视觉领域,实现更强的多模态理解能力,推动轻量化、高效能模型在实际场景中的广泛应用。

本专栏通过快照技术转载,仅保留核心内容

内容中包含的图片若涉及版权问题,请及时与我们联系删除