- 简介在这份报告中,我们介绍了InternVL 1.5,这是一个开源的多模态大型语言模型(MLLM),旨在弥补开源和专有商业模型之间在多模态理解方面的能力差距。我们介绍了三个简单的改进:(1)强大的视觉编码器:我们探索了一种连续学习策略,用于大规模视觉基础模型——InternViT-6B,提高了其视觉理解能力,并使其可以在不同的LLM中转移和重复使用。(2)动态高分辨率:我们根据输入图像的长宽比和分辨率将图像分成1到40个448×448像素的瓷砖,支持高达4K分辨率的输入。(3)高质量的双语数据集:我们精心收集了一个高质量的双语数据集,涵盖了常见场景、文档图像,并用英文和中文问答对进行了注释,显著提高了OCR和与中文相关的任务的性能。我们通过一系列基准测试和比较研究评估了InternVL 1.5。与开源和专有模型相比,InternVL 1.5表现出竞争性能,在18个基准测试中的8个中取得了最先进的结果。代码已经在https://github.com/OpenGVLab/InternVL发布。
-
- 图表
- 解决问题本论文旨在引入InternVL 1.5,一个开源的多模态大型语言模型(MLLM),以弥补开源和专有商业模型在多模态理解方面的能力差距。该模型试图解决多模态理解的问题。
- 关键思路本论文提出了三个简单的改进:(1)强大的视觉编码器;(2)动态高分辨率;(3)高质量的双语数据集。这些改进使InternVL 1.5在OCR和中文相关任务方面的性能显著提高,与开源和专有模型相比具有竞争力。
- 其它亮点本论文通过一系列基准测试和比较研究评估了InternVL 1.5。实验设计合理,使用了高质量的双语数据集,并且已经开源发布了代码。InternVL 1.5在18个基准测试中有8个取得了最先进的结果。值得进一步深入研究。
- 最近在这个领域中,还有一些相关的研究,例如《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《UNITER: UNiversal Image-TExt Representation Learning》等。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流