我们介绍了SOLO,一种可扩展的视觉语言建模的单一Transformer。目前的大型视觉语言模型(LVLMs)如LLaVA大多采用异构架构,将预训练的视觉编码器与大型语言模型(LLMs)连接起来,以促进视觉识别和复杂推理。虽然相对轻量级的训练取得了显著的性能,但我们确定了四个主要的可扩展性限制:(1)视觉容量受到预训练视觉编码器的限制,这些编码器通常比LLMs小一个数量级。(2)异构架构使得使用已建立的硬件和软件基础设施变得复杂。(3)对这种架构的扩展定律的研究必须考虑三个单独的组件——视觉编码器、连接器和LLMs,这使得分析变得复杂。(4)使用现有的视觉编码器通常需要遵循图像输入预处理的预定义规范,例如通过将输入重塑为固定分辨率的正方形图像,这在处理和训练高分辨率图像或具有不寻常的纵横比的图像时会带来困难。像SOLO这样的统一单一Transformer架构有效地解决了LVLMs中的这些可扩展性问题;然而,它在现代环境中的有限采用可能源于缺乏可靠的训练配方,以平衡两种模态并确保稳定的训练,以实现10亿级别的模型。在本文中,我们介绍了第一个开源训练配方,用于开发SOLO,这是一种开源的7B LVLM,使用适度的学术资源。训练配方包括从LLMs初始化,对ImageNet和Web规模数据进行顺序预训练,并对我们精心策划的高质量数据集进行指导微调。在广泛的评估中,SOLO表现出与LLaVA-v1.5-7B可比的性能,特别是在视觉数学推理方面表现出色。
提问交流