NEW

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

Brandon McKinzie ,

Zhe Gan ,

Jean-Philippe Fauconnier ,

Sam Dodge ,

Bowen Zhang ,

Philipp Dufter ,

Dhruti Shah ,

Xianzhi Du ,

Futang Peng ,

Floris Weers ,

Anton Belyi ,

Haotian Zhang ,

Karanjeet Singh ,

Doug Kang ,

Ankur Jain ,

Hongyu Hè ,

Max Schwarzer ,

Tom Gunter ,

Xiang Kong ,

Aonan Zhang ,

Jianyu Wang ,

Chong Wang ,

Nan Du ,

Tao Lei ,

Sam Wiseman ,

Mark Lee ,

Zirui Wang ,

Ruoming Pang ,

Peter Grasch ,

Alexander Toshev ,

Yinfei Yang

热度 3302

2024年03月14日

简介

在这项工作中，我们讨论了构建高性能多模态大语言模型（MLLMs）的问题。特别地，我们研究了各种架构组件和数据选择的重要性。通过对图像编码器、视觉语言连接器和各种预训练数据进行仔细全面的消融，我们确定了几个关键的设计经验。例如，我们证明了在大规模多模态预训练中，使用精心混合的图像字幕、交错的图像文本和纯文本数据对于在多个基准测试中实现最先进的（SOTA）少样本结果至关重要，相比其他已发布的预训练结果。此外，我们还表明，图像编码器以及图像分辨率和图像标记数量具有重大影响，而视觉语言连接器的设计相对不重要。通过扩展所提供的配方，我们构建了MM1，一个多模态模型系列，最多可达到30B个参数，包括密集模型和专家混合变体，在预训练度量方面是最先进的，并在一系列已建立的多模态基准测试中，在监督微调后实现了竞争性能。由于大规模预训练，MM1具有诸如增强的上下文学习和多图像推理等吸引人的特性，使得少样本的思维链提示成为可能。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

本文旨在构建性能良好的Multimodal Large Language Models (MLLMs)。具体而言，研究了各种架构组件和数据选择的重要性。通过对图像编码器、视觉语言连接器和各种预训练数据选择进行仔细和全面的消融分析，确定了几个关键的设计要点。
关键思路

本文的关键思路是通过仔细混合图像标题、交错图像文本和仅文本数据，进行大规模多模态预训练，以在多个基准测试中实现最先进的few-shot结果。此外，本文还展示了图像编码器、图像分辨率和图像标记数量的重要性，而视觉语言连接器的设计相对不重要。
其它亮点

本文通过大规模预训练构建了MM1系列的多模态模型，参数高达30B，包括密集模型和专家混合（MoE）变体，这些模型在预训练指标上达到了最先进的水平，并在一系列已建立的多模态基准测试中，在监督微调后实现了竞争性能。值得注意的是，MM1由于大规模预训练，具有增强的上下文学习和多图像推理等吸引人的特性，使得few-shot chain-of-thought prompting成为可能。
相关研究

在这个领域中，最近的相关研究包括《DALL·E: Creating Images from Text》和《CLIP: Connecting Text and Images》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问