A Survey of Multimodal Large Language Model from A Data-centric Perspective

2024年05月26日
  • 简介
    多模态大语言模型(MLLMs)通过整合和处理来自多种模态的数据,包括文本、视觉、音频、视频和3D环境,增强了标准大语言模型的能力。数据在这些模型的开发和改进中起着关键作用。在本文中,我们从数据中心的角度全面回顾了MLLMs的文献。具体而言,我们探讨了在MLLMs的预训练和适应阶段准备多模态数据的方法。此外,我们分析了数据集的评估方法,并回顾了评估MLLMs的基准。我们的调查还概述了潜在的未来研究方向。本文旨在为研究人员提供对MLLMs数据驱动方面的详细理解,促进该领域的进一步探索和创新。
  • 图表
  • 解决问题
    本文从数据中心的角度全面综述了多模态大语言模型(MLLMs)的文献,探讨了在MLLMs的预训练和适应阶段准备多模态数据的方法,并分析了数据集的评估方法和评估MLLMs的基准。本文旨在为研究人员提供MLLMs数据驱动方面的详细理解,促进该领域的进一步探索和创新。
  • 关键思路
    本文的关键思路是从数据中心的角度全面综述多模态大语言模型(MLLMs)的文献,探讨了在MLLMs的预训练和适应阶段准备多模态数据的方法,并分析了数据集的评估方法和评估MLLMs的基准。
  • 其它亮点
    本文详细介绍了多模态大语言模型(MLLMs)的数据驱动方面,包括预训练和适应阶段的多模态数据准备方法、数据集的评估方法和评估MLLMs的基准。本文提出了未来研究方向,并指出了值得关注的地方。
  • 相关研究
    近期在这个领域中的相关研究包括:《DALL·E: Creating Images from Text》、《CLIP: Connecting Text and Images》、《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论