- 简介我们推出了 Gemma 3,这是 Gemma 系列轻量级开源模型的多模态扩展版本,其规模从 10 亿到 270 亿参数不等。此版本引入了视觉理解能力、更广泛的多语言支持以及更长的上下文处理能力——至少可达 128K 个标记(tokens)。同时,我们改进了模型架构,以减少在处理长上下文时容易激增的 KV 缓存内存占用。这一目标通过增加局部注意力层与全局注意力层的比例,并保持局部注意力的跨度较短来实现。Gemma 3 模型通过知识蒸馏进行训练,在预训练和指令微调版本上均优于 Gemma 2。特别是我们的新型后训练方法显著提升了模型的数学计算、对话交互、指令遵循及多语言处理能力,使得 Gemma3-4B-IT 能够与 Gemma2-27B-IT 相媲美,而 Gemma3-27B-IT 在多项基准测试中表现接近 Gemini-1.5-Pro。我们已向社区开放所有模型。
- 图表
- 解决问题论文试图解决大规模多模态模型在轻量化、长上下文支持和多语言覆盖方面的挑战,同时优化内存使用以支持更长的上下文长度。
- 关键思路Gemma 3通过调整模型架构(增加局部注意力与全局注意力的比例,并缩短局部注意力的跨度)来减少KV缓存的内存消耗。此外,通过蒸馏训练方法显著提升性能,并引入新的后训练技术以增强数学推理、对话和多语言能力。
- 其它亮点1. 支持至少128K tokens的长上下文,适用于复杂任务;2. 模型系列从1B到27B参数,涵盖多种规模;3. 多语言支持和视觉理解能力的引入;4. Gemma 3-4B-IT在多项基准测试中表现媲美更大规模的Gemma 2-27B-IT;5. 所有模型均已开源,便于社区进一步研究和应用。
- 相关研究包括:1. Gemini系列模型(如Gemini-1.5-Pro),专注于高性能多模态任务;2. LLaMA系列,探索轻量化和多语言支持;3. PaLM系列,研究大规模参数对性能的影响;4. 其他类似工作如Falcon、Qwen等,也在尝试优化长上下文处理和降低内存开销。
沙发等你来抢
去评论
评论
沙发等你来抢