Gemini: A Family of Highly Capable Multimodal Models

2023年12月19日
  • 简介
    本报告介绍了一种新的多模态模型家族Gemini,它在图像、音频、视频和文本理解方面展现出卓越的能力。Gemini家族包括Ultra、Pro和Nano三种规格,适用于从复杂推理任务到设备内存受限的应用场景。在广泛的基准测试中,我们最强大的Gemini Ultra模型在32个基准测试中有30个取得了最新进展,特别是在广受关注的考试基准测试MMLU上首次实现了人类专家的表现,并在我们检查的20个多模态基准测试中提高了现有技术的水平。我们相信,Gemini模型在跨模态推理和语言理解方面的新能力将使各种用例成为可能,我们讨论了我们部署它们以负责任的方式提供给用户的方法。
  • 图表
  • 解决问题
    Gemini模型试图解决跨模态推理和语言理解的问题,以及在内存受限设备上实现高性能的多模态应用。这是一个新问题。
  • 关键思路
    Gemini模型家族包括三种规模的模型,利用Transformer架构实现跨模态推理和语言理解,在30个基准测试中取得了优异的成绩,其中在MMLU基准测试上首次达到了人类专家的水平。
  • 其它亮点
    Gemini模型在跨模态推理和语言理解方面具有出色的性能,可以应用于各种应用场景。实验设计充分,使用了20个多模态基准测试数据集,并在30个基准测试中取得了优异的成绩。论文还讨论了如何负责任地将Gemini模型部署到用户身上。
  • 相关研究
    最近的相关研究包括CLIP、DALL-E、ViLBERT等模型。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论