Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

2024年03月08日
  • 简介
    在这份报告中,我们介绍了Gemini家族的最新模型,Gemini 1.5 Pro。它是一种高度计算效率的多模态专家混合模型,能够回忆和推理来自数百万标记的上下文的细粒度信息,包括多个长文档和数小时的视频和音频。Gemini 1.5 Pro在跨模态的长上下文检索任务中实现了几乎完美的召回率,改进了长文档问答、长视频问答和长上下文ASR的最新技术水平,并在广泛的基准测试中与Gemini 1.0 Ultra的最新性能相匹配或超越。通过研究Gemini 1.5 Pro的长上下文能力极限,我们发现在下一个标记预测和接近完美的检索(> 99%)方面,它在至少10M标记上仍然有所改进,这是对现有模型(如Claude 2.1(200k)和GPT-4 Turbo(128k))的一次世代性飞跃。最后,我们强调了大型语言模型在前沿的惊人新能力;当给定Kalamang的语法手册时,它能够学习将英语翻译成Kalamang,达到了与从相同内容中学习的人类类似的水平。
  • 图表
  • 解决问题
    Gemini 1.5 Pro试图解决长文本、长视频、长语音等多模态场景下的信息检索和推理问题,以及语言模型在极端情况下的表现。
  • 关键思路
    Gemini 1.5 Pro是一种高效的多模态混合专家模型,能够处理包括数百万个上下文标记在内的细粒度信息,并能够在多个模态之间进行推理和检索,利用了混合专家模型的优势,实现了接近完美的长文本检索和问答。
  • 其它亮点
    实验结果表明,Gemini 1.5 Pro在长文本问答、长视频问答、长语音识别等任务中均取得了最先进的性能,同时在下一个标记预测和长文本检索方面有了显著提高。此外,Gemini 1.5 Pro还展示了对极端情况下语言模型的新能力,例如可以学习一种世界上只有不到200个说话者的语言的翻译。
  • 相关研究
    在最近的研究中,也有一些关于长文本、长视频和多模态场景下的信息检索和推理的研究,例如T5、CLIP等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论