A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise

简介

近来，对于多模态大型语言模型（MLLMs）的兴趣激增，例如OpenAI的GPT-4V（视觉），这标志着学术界和工业界的一个重要趋势。它们赋予大型语言模型（LLMs）强大的视觉理解能力，使它们能够处理各种多模态任务。最近，Google发布了其最新和最强大的MLLM Gemini，从头开始为多模态构建。鉴于其出色的推理能力，Gemini是否能挑战GPT-4V在多模态学习中的领先地位？在本文中，我们对Gemini Pro的视觉理解能力进行了初步探索，全面涵盖了四个领域：基础感知、高级认知、具有挑战性的视觉任务和各种专家能力。我们将Gemini Pro与最先进的GPT-4V进行比较，以评估其上限，以及最新开源的MLLM Sphinx，揭示了手动努力与黑盒系统之间的差距。定性样本表明，虽然GPT-4V和Gemini展示了不同的回答风格和偏好，但它们可以展示出相当的视觉推理能力，而Sphinx在领域通用性方面仍然落后于它们。具体而言，GPT-4V倾向于详细解释和中间步骤，而Gemini则更喜欢输出直接而简洁的答案。在流行的MME基准测试上的定量评估也展示了Gemini成为GPT-4V强有力竞争者的潜力。我们对Gemini的早期调查还观察到了一些MLLM的常见问题，表明距离人工智能还有相当大的距离。我们发布了一个跟踪MLLM进展的项目，网址为https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models。
图表
解决问题

探索Gemini Pro在视觉理解方面的能力，评估其在多模态学习中的潜力，以及与GPT-4V和Sphinx的比较。
关键思路

通过对Gemini Pro在四个领域的视觉理解能力进行综合评估，与GPT-4V和Sphinx进行比较，发现Gemini Pro具有与GPT-4V相当的视觉推理能力，并且在MME基准测试中显示出挑战GPT-4V的潜力。
其它亮点

Gemini Pro是一种新的多模态大语言模型，能够在视觉理解方面具有强大的推理能力。论文通过对四个领域的视觉理解能力进行评估，以及与GPT-4V和Sphinx进行比较，发现Gemini Pro具有挑战GPT-4V的潜力。实验使用了MME基准测试，并且作者将其项目开源。
相关研究

最近的相关研究包括GPT-4V和Sphinx等多模态大语言模型，以及在多模态学习中使用的其他技术和方法。

A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise

评论