Unveiling Encoder-Free Vision-Language Models

向作者提问

NEW

简介

现有的视觉-语言模型（VLMs）大多依赖于视觉编码器来提取视觉特征，然后由大型语言模型（LLMs）完成视觉-语言任务。然而，视觉编码器在抽象视觉表示时设定了强烈的归纳偏置，例如分辨率、宽高比和语义先验，这可能会阻碍VLMs的灵活性和效率。训练纯粹的VLMs，即不使用视觉编码器而直接接受无缝的视觉和语言输入，仍然是一个具有挑战性且很少被探索的问题。实证观察表明，没有编码器的直接训练会导致收敛缓慢和性能差距大。在这项工作中，我们弥合了基于编码器和无编码器模型之间的差距，并提出了一种简单而有效的训练方法，以实现纯粹的VLMs。具体来说，我们通过彻底的实验揭示了高效训练无编码器VLMs的关键方面：（1）在一个统一的解码器中桥接视觉-语言表示；（2）通过额外的监督增强视觉识别能力。借助这些策略，我们推出了EVE，这是一种可以高效训练和推理的无编码器视觉-语言模型。值得注意的是，仅利用3500万公开可访问的数据，EVE就能在多个视觉-语言基准测试中与类似容量的基于编码器的VLMs相媲美。它显著优于训练过程神秘且训练数据未公开的Fuyu-8B。我们认为，EVE为跨模态开发纯解码器架构提供了一条透明且高效的路径。我们的代码和模型可在以下地址获取：https://github.com/baaivision/EVE。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

该论文尝试解决现有视觉-语言模型（VLMs）依赖于视觉编码器的问题，这些编码器在抽象视觉表示时引入了强烈的归纳偏差，可能限制了模型的灵活性和效率。论文探索了如何训练纯视觉-语言模型（即不使用视觉编码器），以提高模型的性能和效率。
关键思路

论文的关键思路是通过两个主要策略来训练无编码器的视觉-语言模型：(1) 在一个统一的解码器中桥接视觉和语言表示；(2) 通过额外的监督增强视觉识别能力。这些策略旨在克服直接训练无编码器模型时遇到的收敛慢和性能差距大的问题。
其它亮点

论文通过详细的实验验证了这些策略的有效性，并提出了名为EVE的无编码器视觉-语言模型。EVE仅使用3500万公开可用的数据，就能在多个视觉-语言基准上与类似容量的编码器-基于的VLMs相媲美。此外，EVE显著优于训练过程神秘且训练数据未公开的Fuyu-8B模型。论文还提供了开源代码和模型，为后续研究提供了透明和高效的路径。
相关研究

近期在这个领域中的相关研究包括： 1. CLIP: Learning Transferable Visual Models From Natural Language Supervision (Radford et al., 2021) 2. ALIGN: Efficient Training of Image-Text Encoders via Contrastive Learning (Jia et al., 2021) 3. Fuyu: A Large-Scale Pretrained Model for Vision-Language Tasks (Anonymous, 2023) 4. ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision (Kim et al., 2021) 这些研究主要集中在如何通过不同的架构和训练方法提高视觉-语言模型的性能。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问