Ovis: Structural Embedding Alignment for Multimodal Large Language Model

2024年05月31日
  • 简介
    目前的多模态大语言模型(MLLMs)通常是将预训练的LLM与另一个预训练的视觉变换器通过连接器(如MLP)集成在一起,赋予LLM视觉能力。然而,MLLMs中两种嵌入策略之间的不对齐——基于嵌入查找表的结构文本嵌入和直接由视觉编码器生成的连续嵌入——使得更无缝地融合视觉和文本信息变得具有挑战性。我们提出了Ovis,一种新颖的MLLM架构,旨在结构上对齐视觉和文本嵌入。Ovis将一个可学习的视觉嵌入表集成到视觉编码器的过程中。为了捕捉丰富的视觉语义,每个图像块多次索引视觉嵌入表,最终生成的视觉嵌入是索引嵌入的概率组合。这种结构化方法类似于生成文本嵌入的方法。在各种多模态基准测试中进行的实证评估表明,Ovis优于类似参数规模的开源MLLMs,甚至在整体上超越了专有模型Qwen-VL-Plus。这些结果突显了Ovis结构化视觉表示的潜力,可以推动MLLM架构设计的进步,促进更有效的多模态学习。Ovis的源代码和训练数据集将公开发布。
  • 图表
  • 解决问题
    论文旨在解决当前多模态大型语言模型(MLLMs)中文本嵌入和视觉嵌入不匹配的问题,提出了一种新的MLLM架构Ovis,旨在通过结构化视觉嵌入实现视觉和文本嵌入的结构对齐。
  • 关键思路
    Ovis在视觉编码器中集成了一个可学习的视觉嵌入表,每个图像块索引视觉嵌入表多次,以捕获丰富的视觉语义,并通过结构化方法生成视觉嵌入,与文本嵌入的生成方法相似,从而实现视觉和文本嵌入的结构对齐。
  • 其它亮点
    论文在多个多模态基准测试中对Ovis进行了实证评估,并表明Ovis在性能上优于类似参数规模的开源MLLMs,甚至在整体上超过了专有模型Qwen-VL-Plus。Ovis的源代码和训练数据集将公开发布。
  • 相关研究
    在这个领域中的相关研究包括:Unified Vision-Language Pre-Training for Image Captioning and VQA 和VisualBERT: A Simple and Performant Baseline for Vision and Language。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论