Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

2024年05月15日
  • 简介
    我们介绍了一种先进的多模态视觉语言模型——Xmodel-VLM。它旨在在消费级GPU服务器上高效部署。我们的工作直接应对一个关键的行业问题,即应对阻碍大规模多模态系统广泛采用的高昂服务成本。通过严格的训练,我们从头开始开发了一个10亿规模的语言模型,采用LLaVA模型对齐范式。结果是我们称之为Xmodel-VLM的轻量级但功能强大的多模态视觉语言模型。通过在许多经典的多模态基准测试中进行广泛测试,我们发现尽管Xmodel-VLM体积更小,执行速度更快,但其性能与更大的模型相当。我们的模型检查点和代码可以在GitHub上公开获取,网址是https://github.com/XiaoduoAILab/XmodelVLM。
  • 图表
  • 解决问题
    论文旨在解决大规模多模态系统的高昂服务成本问题,提出了一种轻量级但功能强大的多模态视觉语言模型。
  • 关键思路
    采用LLaVA范例进行模态对齐,从头开始开发了一个10亿规模的语言模型,设计了一种高效部署于消费级GPU服务器的模型,取得了与大型模型相当的性能。
  • 其它亮点
    论文提出的Xmodel-VLM是一种轻量级但功能强大的多模态视觉语言模型,通过在多个经典多模态基准测试中进行广泛测试,证明了其性能与大型模型相当,同时提供了公开的模型检查点和代码。
  • 相关研究
    最近在多模态领域中,还有一些相关的研究,例如:《VisualBERT:一种视觉语言预训练模型》、《图像和文本的复合表示学习》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论