A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise

2023年12月19日
  • 简介
    近来,对于多模态大型语言模型(MLLMs)的兴趣激增,例如OpenAI的GPT-4V(视觉),这标志着学术界和工业界的一个重要趋势。它们赋予大型语言模型(LLMs)强大的视觉理解能力,使它们能够处理各种多模态任务。最近,Google发布了其最新和最强大的MLLM Gemini,从头开始为多模态构建。鉴于其出色的推理能力,Gemini是否能挑战GPT-4V在多模态学习中的领先地位?在本文中,我们对Gemini Pro的视觉理解能力进行了初步探索,全面涵盖了四个领域:基础感知、高级认知、具有挑战性的视觉任务和各种专家能力。我们将Gemini Pro与最先进的GPT-4V进行比较,以评估其上限,以及最新开源的MLLM Sphinx,揭示了手动努力与黑盒系统之间的差距。定性样本表明,虽然GPT-4V和Gemini展示了不同的回答风格和偏好,但它们可以展示出相当的视觉推理能力,而Sphinx在领域通用性方面仍然落后于它们。具体而言,GPT-4V倾向于详细解释和中间步骤,而Gemini则更喜欢输出直接而简洁的答案。在流行的MME基准测试上的定量评估也展示了Gemini成为GPT-4V强有力竞争者的潜力。我们对Gemini的早期调查还观察到了一些MLLM的常见问题,表明距离人工智能还有相当大的距离。我们发布了一个跟踪MLLM进展的项目,网址为https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models。
  • 图表
  • 解决问题
    探索Gemini Pro在视觉理解方面的能力,评估其在多模态学习中的潜力,以及与GPT-4V和Sphinx的比较。
  • 关键思路
    通过对Gemini Pro在四个领域的视觉理解能力进行综合评估,与GPT-4V和Sphinx进行比较,发现Gemini Pro具有与GPT-4V相当的视觉推理能力,并且在MME基准测试中显示出挑战GPT-4V的潜力。
  • 其它亮点
    Gemini Pro是一种新的多模态大语言模型,能够在视觉理解方面具有强大的推理能力。论文通过对四个领域的视觉理解能力进行评估,以及与GPT-4V和Sphinx进行比较,发现Gemini Pro具有挑战GPT-4V的潜力。实验使用了MME基准测试,并且作者将其项目开源。
  • 相关研究
    最近的相关研究包括GPT-4V和Sphinx等多模态大语言模型,以及在多模态学习中使用的其他技术和方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论