How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

2024年04月25日
  • 简介
    在本报告中,我们介绍了InternVL 1.5,这是一个开源的多模态大型语言模型(MLLM),旨在弥合开源和专有商业模型在多模态理解方面的能力差距。我们引入了三个简单的改进:(1)强大的视觉编码器:我们探索了一种连续学习策略,针对大规模视觉基础模型InternViT-6B,提升了其视觉理解能力,并使其能够在不同的LLM中进行转移和重用。(2)动态高分辨率:我们根据输入图像的宽高比和分辨率,将图像分成1到40个448×448像素的瓦片,支持高达4K分辨率的输入。(3)高质量的双语数据集:我们精心收集了一个高质量的双语数据集,涵盖了常见场景、文档图像,并使用英文和中文问答对进行了注释,极大地提高了OCR和中文相关任务的性能。我们通过一系列基准测试和比较研究评估了InternVL 1.5。与开源和专有模型相比,InternVL 1.5表现具有竞争力,在18个基准测试中有8个达到了最先进的水平。代码已在https://github.com/OpenGVLab/InternVL发布。
  • 图表
  • 解决问题
    论文旨在通过引入三项简单的改进,构建一个开源的多模态大语言模型InternVL 1.5,弥合开源和专有商业模型在多模态理解方面的能力差距。
  • 关键思路
    三项改进包括强大的视觉编码器、动态高分辨率和高质量的双语数据集,这些改进使InternVL 1.5在OCR和中文相关任务中表现出色,取得了8项18项基准测试中的最优结果。
  • 其它亮点
    论文通过使用InternViT-6B视觉基础模型,并采用连续学习策略增强其视觉理解能力;通过将图像分割成不同大小的瓷砖,支持高达4K分辨率的输入;通过收集高质量的双语数据集,涵盖常见场景和文档图像,显着提高了OCR和中文相关任务的性能。此外,论文还发布了代码并提供了多个基准测试。
  • 相关研究
    最近在多模态理解领域的相关研究包括DALL·E、CLIP、ViLBERT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论