- 简介在这项工作中,我们介绍了Libra,这是一个在大型语言模型(LLM)上具有解耦视觉系统的原型模型。解耦视觉系统将内部模态建模和跨模态交互解耦,从而产生独特的视觉信息建模和有效的跨模态理解。Libra通过离散自回归建模来训练视觉和语言输入。具体而言,我们将路由视觉专家和跨模态桥接模块结合到预训练的LLM中,以在注意力计算期间路由视觉和语言流,从而在内部模态建模和跨模态交互场景中实现不同的注意力模式。实验结果表明,Libra的专门设计实现了一个强大的MLLM基线,仅使用5000万训练数据就可以与现有的图像到文本场景中的工作相媲美,为未来的多模态基础模型提供了新的视角。代码可在https://github.com/YifanXu74/Libra获得。
-
- 图表
- 解决问题本文试图通过引入一个具有解耦视觉系统的大型语言模型(LLM)的原型模型Libra来解决跨模态理解中的问题。这个问题是当前多模态研究中的一个新问题。
- 关键思路本文的关键思路是将视觉信息建模和跨模态交互分离,通过在视觉专家和跨模态桥接模块之间建立路由,实现内部模态建模和跨模态交互中的不同注意力模式,从而提高跨模态理解的效果。
- 其它亮点本文的亮点包括:(1)引入了一个具有解耦视觉系统的大型语言模型(LLM)的原型模型Libra,通过在视觉专家和跨模态桥接模块之间建立路由,实现内部模态建模和跨模态交互中的不同注意力模式。(2)在视觉和语言输入上进行离散自回归建模训练。(3)仅使用5000万的训练数据,Libra就取得了强大的MLLM基线,与现有的图像到文本场景中的工作相媲美。(4)作者开源了代码。
- 在这个领域中,最近的相关研究包括:(1) ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks; (2) LXMERT: Learning Cross-Modality Encoder Representations from Transformers; (3) UNITER: Learning Universal Image-Text Representations; (4) VisualBERT: A Simple and Performant Baseline for Vision and Language.
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流