- 简介将文本和视觉模态相连接在一起在生成智能中起着至关重要的作用。因此,受到大型语言模型成功的启发,人们正在致力于开发多模态大型语言模型(MLLMs)。这些模型可以无缝地集成视觉和文本模态,作为输入和输出,同时提供基于对话的界面和指令跟踪能力。本文全面回顾了最近基于视觉的MLLMs,分析了它们的架构选择、多模态对齐策略和训练技术。我们还对这些模型在广泛的任务中进行了详细的分析,包括视觉定位、图像生成和编辑、视觉理解和领域特定应用。此外,我们编制和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行比较。总的来说,这项调查提供了当前技术水平的全面概述,为未来的MLLMs奠定了基础。
- 图表
- 解决问题本论文旨在综述最近的视觉型多模态大语言模型(MLLMs)的发展,分析其架构选择、多模态对齐策略和训练技术,并在广泛的任务范围内进行详细分析。
- 关键思路本论文提供了对最新的视觉型MLLMs的综合评估,为未来的研究打下基础。
- 其它亮点本论文分析了不同任务中的多模态大语言模型,包括图像生成、编辑、理解和特定领域的应用,同时编译和描述了训练数据集和评估基准。此外,还对现有模型在性能和计算要求方面进行了比较。
- 最近的相关研究包括“VisualBERT: A Simple and Performant Baseline for Vision and Language”和“ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks”。
沙发等你来抢
去评论
评论
沙发等你来抢