TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones

Zhengqing Yuan ,
Zhaoxu Li ,
Lichao Sun
2023年12月28日
  • 简介
    在先进的多模态学习时代,像GPT-4V这样的多模态大型语言模型(MLLMs)已经在将语言和视觉元素联系起来方面取得了显著进展。然而,其闭源性和相当大的计算需求对于普遍使用和修改而言仍然存在显著挑战。这就是开源MLLMs(如LLaVA和MiniGPT-4)的用处所在,它们在各种任务上取得了突破性的成就。尽管取得了这些成就,计算效率仍然是一个未解决的问题,因为像LLaVA-v1.5-13B这样的模型需要大量的资源。为了解决这些问题,我们推出了TinyGPT-V,这是一种新型模型,将令人印象深刻的性能与普通的计算能力相结合。它的独特之处在于,仅需要一个24G GPU进行训练,以及一个8G GPU或CPU进行推理。TinyGPT-V建立在Phi-2之上,将有效的语言骨干与来自BLIP-2或CLIP的预训练视觉模块相结合。TinyGPT-V的2.8B参数可以经过独特的量化过程,适用于在各种8G设备上进行本地部署和推理任务。我们的工作促进了进一步开发成本效益高、高效、高性能的MLLMs,扩大了它们在各种实际应用场景中的适用性。此外,本文提出了一种通过小骨干实现多模态大型语言模型的新范式。我们的代码和训练权重分别放置在以下网址: https://github.com/DLYuanGod/TinyGPT-V 和 https://huggingface.co/Tyrannosaurus/TinyGPT-V。
  • 图表
  • 解决问题
    TinyGPT-V论文试图提出一种小型的多模态大语言模型,以解决目前大型模型的计算效率问题。
  • 关键思路
    TinyGPT-V使用Phi-2作为语言骨干,并结合来自BLIP-2或CLIP的预训练视觉模块,使得该模型只需要24G GPU进行训练和8G GPU或CPU进行推理。
  • 其它亮点
    TinyGPT-V使用独特的量化过程,适用于在各种设备上进行本地部署和推理任务。该论文还提出了一种新的小型骨干多模态大语言模型的范例。代码和训练权重已放置在GitHub和HuggingFace上。
  • 相关研究
    近期的相关研究包括GPT-4V、LLaVA和MiniGPT-4等多模态大语言模型。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论