MiniCPM-V: A GPT-4V Level MLLM on Your Phone

2024年08月03日
  • 简介
    最近,多模态大语言模型(MLLMs)的激增从根本上重塑了人工智能研究和产业的格局,为实现下一个人工智能里程碑指明了一个有前途的方向。然而,仍然存在重大挑战,阻碍了MLLMs在实际应用中的实用性。最显著的挑战来自于运行参数巨大且计算量极大的MLLM的巨大成本。因此,大多数MLLM需要部署在高性能云服务器上,这大大限制了它们的应用范围,例如移动、离线、能源敏感和隐私保护场景。在这项工作中,我们提出了MiniCPM-V,一系列可在终端设备上部署的高效MLLM。通过在架构、预训练和对齐方面集成最新的MLLM技术,最新的MiniCPM-Llama3-V 2.5具有几个显著特点:(1)强大的性能,在11个流行基准测试中超越了GPT-4V-1106、Gemini Pro和Claude 3的OpenCompass评估,(2)强大的OCR能力和任意宽高比的180万像素高分辨率图像感知,(3)低幻觉率的值得信赖的行为,(4)支持30多种语言的多语言支持,(5)在移动电话上的高效部署。更重要的是,MiniCPM-V可以被视为一个有前途的趋势的代表性例子:为实现可用(例如GPT-4V)级别的性能所需的模型大小正在迅速减小,与端侧计算能力的快速增长一起。这表明,在终端设备上部署GPT-4V级别的MLLM变得越来越可能,从而在不久的将来解锁了更广泛的实际应用领域。
  • 图表
  • 解决问题
    MiniCPM-V试图解决的问题是如何在端侧设备上部署高效的多模态大型语言模型(MLLMs),以解决云端部署的成本和应用范围受限的问题。
  • 关键思路
    MiniCPM-V是一种高效的MLLMs,通过在架构、预训练和对齐方面整合最新技术,实现了强大的性能、OCR能力、多语言支持和在移动电话上的高效部署,同时模型大小也在不断减小,能够在端侧设备上实现GPT-4V级别的性能。
  • 其它亮点
    MiniCPM-V在11个流行基准测试中表现优异,具有强大的OCR能力和1.8M像素的高分辨率图像感知能力,低幻觉率,支持30多种语言。实验设计合理,使用了多个数据集,同时开源了代码。MiniCPM-V的成功也预示着在端侧计算能力不断增强的情况下,部署GPT-4V级别的MLLMs将成为可能。
  • 相关研究
    最近的相关研究包括GPT-4、Gemini Pro和Claude 3等MLLMs的开发,以及在移动设备上部署MLLMs的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论