Libra: Building Decoupled Vision System on Large Language Models

向作者提问

NEW

简介

在这项工作中，我们介绍了Libra，这是一个在大型语言模型（LLM）上具有解耦视觉系统的原型模型。解耦视觉系统将内部模态建模和跨模态交互解耦，从而产生独特的视觉信息建模和有效的跨模态理解。Libra通过离散自回归建模来训练视觉和语言输入。具体而言，我们将路由视觉专家和跨模态桥接模块结合到预训练的LLM中，以在注意力计算期间路由视觉和语言流，从而在内部模态建模和跨模态交互场景中实现不同的注意力模式。实验结果表明，Libra的专门设计实现了一个强大的MLLM基线，仅使用5000万训练数据就可以与现有的图像到文本场景中的工作相媲美，为未来的多模态基础模型提供了新的视角。代码可在https://github.com/YifanXu74/Libra获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图通过引入一个具有解耦视觉系统的大型语言模型（LLM）的原型模型Libra来解决跨模态理解中的问题。这个问题是当前多模态研究中的一个新问题。
关键思路

本文的关键思路是将视觉信息建模和跨模态交互分离，通过在视觉专家和跨模态桥接模块之间建立路由，实现内部模态建模和跨模态交互中的不同注意力模式，从而提高跨模态理解的效果。
其它亮点

本文的亮点包括：（1）引入了一个具有解耦视觉系统的大型语言模型（LLM）的原型模型Libra，通过在视觉专家和跨模态桥接模块之间建立路由，实现内部模态建模和跨模态交互中的不同注意力模式。（2）在视觉和语言输入上进行离散自回归建模训练。（3）仅使用5000万的训练数据，Libra就取得了强大的MLLM基线，与现有的图像到文本场景中的工作相媲美。（4）作者开源了代码。
相关研究

在这个领域中，最近的相关研究包括：(1) ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks; (2) LXMERT: Learning Cross-Modality Encoder Representations from Transformers; (3) UNITER: Learning Universal Image-Text Representations; (4) VisualBERT: A Simple and Performant Baseline for Vision and Language.

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问