- 简介本文介绍了Cambrian-1,这是一种以视觉为中心的多模态LLM(MLLMs)家族。虽然更强的语言模型可以增强多模态能力,但视觉组件的设计选择通常不足以得到充分的探索,并且与视觉表示学习研究脱节。这种差距阻碍了在真实场景中的准确感官基础。我们的研究使用LLMs和视觉指导调整作为接口来评估各种视觉表示,为不同模型和架构提供新的见解 - 基于超自监督的、强监督的或两者的组合 - 并进行了超过20个视觉编码器的实验。我们批判性地审视现有的MLLM基准,解决了在整合和解释来自各种任务的结果方面涉及的困难,并引入了一个新的以视觉为中心的基准,CV-Bench。为了进一步提高视觉基础,我们提出了空间视觉聚合器(SVA),这是一个动态的、空间感知的连接器,将高分辨率的视觉特征与LLMs集成在一起,同时减少了令牌的数量。此外,我们还讨论了从公开可用的来源策划高质量的视觉指导调整数据,强调了数据源平衡和分布比的重要性。总的来说,Cambrian-1不仅实现了最先进的性能,而且还作为一本详尽的、开放的指导调整MLLMs的食谱。我们提供了模型权重、代码、支持工具、数据集和详细的指导调整和评估配方。我们希望我们的发布将激发和加速多模态系统和视觉表示学习的进步。
- 图表
- 解决问题本论文旨在通过设计一种基于视觉中心的方法,解决多模态语言模型(MLLMs)中视觉组件的不足问题,以实现准确的感性基础。此外,论文还试图解决现有MLLM基准测试中的问题,并提出了一种新的基于视觉的基准测试CV-Bench。该论文的目标是为指令调整的MLLM提供一个全面的开源解决方案,以加速多模态系统和视觉表示学习的发展。
- 关键思路论文提出了一种名为Cambrian-1的MLLM家族,通过使用LLMs和视觉指令调整作为接口来评估各种视觉表示,提出了一种新的动态和空间感知连接器SVA,将高分辨率视觉特征与LLMs集成在一起,同时减少令牌数量。此外,还讨论了从公开来源中策划高质量视觉指令调整数据的重要性。
- 其它亮点论文使用了20多个视觉编码器进行实验,并批判性地检查了现有的MLLM基准测试,提出了一个新的基于视觉的基准测试CV-Bench。此外,论文还提供了模型权重、代码、支持工具、数据集和详细的指令调整和评估配方。
- 最近在这个领域中,还有一些相关的研究,如《DALL·E: Creating Images from Text》、《CLIP: Connecting Text and Images》、《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》等。
沙发等你来抢
去评论
评论
沙发等你来抢