NEW

How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

Zhe Chen ,

Weiyun Wang ,

Hao Tian ,

Shenglong Ye ,

Zhangwei Gao ,

Erfei Cui ,

Wenwen Tong ,

Kongzhi Hu ,

Jiapeng Luo ,

Zheng Ma ,

Ji Ma ,

Jiaqi Wang ,

Xiaoyi Dong ,

Hang Yan ,

Hewei Guo ,

Conghui He ,

Zhenjiang Jin ,

Chao Xu ,

Bin Wang ,

Xingjian Wei ,

Wei Li ,

Wenjian Zhang ,

Lewei Lu ,

Xizhou Zhu ,

Tong Lu ,

Dahua Lin ,

Yu Qiao

热度 49

2024年04月25日

简介

在这份报告中，我们介绍了InternVL 1.5，这是一个开源的多模态大型语言模型（MLLM），旨在弥补开源和专有商业模型之间在多模态理解方面的能力差距。我们介绍了三个简单的改进：（1）强大的视觉编码器：我们探索了一种连续学习策略，用于大规模视觉基础模型——InternViT-6B，提高了其视觉理解能力，并使其可以在不同的LLM中转移和重复使用。（2）动态高分辨率：我们根据输入图像的长宽比和分辨率将图像分成1到40个448×448像素的瓷砖，支持高达4K分辨率的输入。（3）高质量的双语数据集：我们精心收集了一个高质量的双语数据集，涵盖了常见场景、文档图像，并用英文和中文问答对进行了注释，显著提高了OCR和与中文相关的任务的性能。我们通过一系列基准测试和比较研究评估了InternVL 1.5。与开源和专有模型相比，InternVL 1.5表现出竞争性能，在18个基准测试中的8个中取得了最先进的结果。代码已经在https://github.com/OpenGVLab/InternVL发布。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本论文旨在引入InternVL 1.5，一个开源的多模态大型语言模型（MLLM），以弥补开源和专有商业模型在多模态理解方面的能力差距。该模型试图解决多模态理解的问题。
关键思路

本论文提出了三个简单的改进：（1）强大的视觉编码器；（2）动态高分辨率；（3）高质量的双语数据集。这些改进使InternVL 1.5在OCR和中文相关任务方面的性能显著提高，与开源和专有模型相比具有竞争力。
其它亮点

本论文通过一系列基准测试和比较研究评估了InternVL 1.5。实验设计合理，使用了高质量的双语数据集，并且已经开源发布了代码。InternVL 1.5在18个基准测试中有8个取得了最先进的结果。值得进一步深入研究。
相关研究

最近在这个领域中，还有一些相关的研究，例如《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《UNITER: UNiversal Image-TExt Representation Learning》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问