How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

2024年04月25日
  • 简介
    在这份报告中,我们介绍了InternVL 1.5,这是一个开源的多模态大型语言模型(MLLM),旨在弥补开源和专有商业模型之间在多模态理解方面的能力差距。我们介绍了三个简单的改进:(1)强大的视觉编码器:我们探索了一种连续学习策略,用于大规模视觉基础模型——InternViT-6B,提高了其视觉理解能力,并使其可以在不同的LLM中转移和重复使用。(2)动态高分辨率:我们根据输入图像的长宽比和分辨率将图像分成1到40个448×448像素的瓷砖,支持高达4K分辨率的输入。(3)高质量的双语数据集:我们精心收集了一个高质量的双语数据集,涵盖了常见场景、文档图像,并用英文和中文问答对进行了注释,显著提高了OCR和与中文相关的任务的性能。我们通过一系列基准测试和比较研究评估了InternVL 1.5。与开源和专有模型相比,InternVL 1.5表现出竞争性能,在18个基准测试中的8个中取得了最先进的结果。代码已经在https://github.com/OpenGVLab/InternVL发布。
  • 作者讲解·1
  • 图表
  • 解决问题
    本论文旨在引入InternVL 1.5,一个开源的多模态大型语言模型(MLLM),以弥补开源和专有商业模型在多模态理解方面的能力差距。该模型试图解决多模态理解的问题。
  • 关键思路
    本论文提出了三个简单的改进:(1)强大的视觉编码器;(2)动态高分辨率;(3)高质量的双语数据集。这些改进使InternVL 1.5在OCR和中文相关任务方面的性能显著提高,与开源和专有模型相比具有竞争力。
  • 其它亮点
    本论文通过一系列基准测试和比较研究评估了InternVL 1.5。实验设计合理,使用了高质量的双语数据集,并且已经开源发布了代码。InternVL 1.5在18个基准测试中有8个取得了最先进的结果。值得进一步深入研究。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《UNITER: UNiversal Image-TExt Representation Learning》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问