A Single Transformer for Scalable Vision-Language Modeling

简介

我们介绍了SOLO，一种可扩展的视觉语言建模的单一Transformer。目前的大型视觉语言模型（LVLMs）如LLaVA大多采用异构架构，将预训练的视觉编码器与大型语言模型（LLMs）连接起来，以促进视觉识别和复杂推理。虽然相对轻量级的训练取得了显著的性能，但我们确定了四个主要的可扩展性限制：（1）视觉容量受到预训练视觉编码器的限制，这些编码器通常比LLMs小一个数量级。（2）异构架构使得使用已建立的硬件和软件基础设施变得复杂。（3）对这种架构的扩展定律的研究必须考虑三个单独的组件——视觉编码器、连接器和LLMs，这使得分析变得复杂。（4）使用现有的视觉编码器通常需要遵循图像输入预处理的预定义规范，例如通过将输入重塑为固定分辨率的正方形图像，这在处理和训练高分辨率图像或具有不寻常的纵横比的图像时会带来困难。像SOLO这样的统一单一Transformer架构有效地解决了LVLMs中的这些可扩展性问题；然而，它在现代环境中的有限采用可能源于缺乏可靠的训练配方，以平衡两种模态并确保稳定的训练，以实现10亿级别的模型。在本文中，我们介绍了第一个开源训练配方，用于开发SOLO，这是一种开源的7B LVLM，使用适度的学术资源。训练配方包括从LLMs初始化，对ImageNet和Web规模数据进行顺序预训练，并对我们精心策划的高质量数据集进行指导微调。在广泛的评估中，SOLO表现出与LLaVA-v1.5-7B可比的性能，特别是在视觉数学推理方面表现出色。
图表
解决问题

论文旨在解决大型视觉语言模型（LVLMs）的可扩展性问题，通过提出一个统一的单Transformer架构SOLO来解决当前LVLMs存在的四个主要可扩展性限制。
关键思路

SOLO是一个统一的单Transformer架构，通过消除预训练视觉编码器的限制，简化硬件和软件基础设施，简化扩展定律的分析以及允许处理高分辨率图像或具有不寻常长宽比的图像，有效地解决了LVLMs的可扩展性问题。
其它亮点

论文提出了一个开源的训练配方，介绍了使用逐步预训练和指令微调的方法来开发SOLO，该方法使用适度的学术资源，最终形成了一个开源的7B LVLM。SOLO在广泛的评估中表现出与LLaVA-v1.5-7B相当的性能，特别是在视觉数学推理方面表现出色。
相关研究

在这个领域中，最近的相关研究包括LLaVA，它使用了异构架构来连接预训练的视觉编码器和大型语言模型，以实现视觉识别和复杂推理。

A Single Transformer for Scalable Vision-Language Modeling

评论