Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling

2024年12月06日
  • 简介
    我们推出了InternVL 2.5,这是一款基于InternVL 2.0的先进多模态大语言模型(MLLM)系列。该模型保持了核心架构,同时在训练和测试策略以及数据质量方面引入了显著的改进。在这项工作中,我们探讨了模型扩展与性能之间的关系,系统地分析了视觉编码器、语言模型、数据集规模和测试时配置的性能趋势。通过在多个基准测试上的广泛评估,包括跨学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力和纯语言处理等方面,InternVL 2.5 展现了与领先的商业模型如GPT-4o和Claude-3.5-Sonnet相当的性能。特别值得一提的是,我们的模型是首个在MMMU基准上超过70%的开源MLLM,通过链式思维(CoT)推理实现了3.7个百分点的提升,展示了在测试时扩展的强大潜力。我们希望这一模型能够为开源社区贡献新的标准,推动多模态AI系统的开发和应用。HuggingFace演示见 <https://huggingface.co/spaces/OpenGVLab/InternVL>。
  • 图表
  • 解决问题
    论文试图解决多模态大语言模型在不同任务上的性能提升问题,特别是通过模型扩展和测试策略优化来提高多模态理解和生成能力。这是一个持续关注的问题,但该研究特别强调了在开放源码环境下的性能突破。
  • 关键思路
    关键思路在于系统地探索模型规模与性能之间的关系,并引入了新的训练和测试策略,如Chain-of-Thought (CoT) 推理,以提高模型在多种基准测试中的表现。相比现有研究,该论文不仅在技术上进行了创新,还在开源社区贡献了一个性能优越的多模态大语言模型。
  • 其它亮点
    论文通过广泛的基准测试展示了InternVL 2.5在多学科推理、文档理解、多图像/视频理解等任务上的卓越性能,特别是在MMMU基准上首次超过70%,实现了3.7点的显著提升。此外,模型已开源,提供了HuggingFace演示页面,便于社区使用和进一步研究。未来可以继续探索更多复杂的多模态任务和更高效的训练方法。
  • 相关研究
    最近的相关研究包括GPT-4o和Claude-3.5-Sonnet等商业模型的开发,这些模型也在多模态任务上取得了显著进展。其他相关研究包括《Multimodal Pre-training with Large-scale Vision-Language Models》和《Improving Multimodal Understanding with Chain-of-Thought Reasoning》等,这些研究同样关注于多模态预训练和推理策略的改进。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论