MM-LLMs: Recent Advances in MultiModal Large Language Models

Duzhen Zhang ,
Yahan Yu ,
Chenxing Li ,
Jiahua Dong ,
Dan Su ,
Chenhui Chu ,
Dong Yu
2024年01月24日
  • 简介
    过去一年,多模式大语言模型(MM-LLMs)取得了重大进展,通过成本效益的训练策略,增强了现成的LLMs以支持MM输入或输出。由此产生的模型不仅保留了LLMs固有的推理和决策能力,还赋予了各种各样的MM任务。在本文中,我们提供了一份全面的调查报告,旨在促进MM-LLMs的进一步研究。具体而言,我们首先概述了模型架构和训练流程的一般设计公式。随后,我们简要介绍了26种现有的MM-LLMs,每种都具有其特定的公式。此外,我们还回顾了MM-LLMs在主流基准测试中的表现,并总结了提高MM-LLMs效力的关键训练方法。最后,我们探讨了MM-LLMs的有前途的方向,同时维护一个实时跟踪网站,以了解该领域的最新发展。我们希望这份调查报告对于MM-LLMs领域的持续发展有所贡献。
  • 图表
  • 解决问题
    本论文旨在提供一个全面的综述,以促进多模式大语言模型(MM-LLMs)的进一步研究。具体来说,论文介绍了模型架构和训练流程的一般设计公式,并简要介绍了26种现有的MM-LLMs,同时回顾了MM-LLMs在主流基准测试上的表现和关键训练方法,最后探讨了MM-LLMs的有前途的方向。
  • 关键思路
    本论文的关键思路是介绍多模式大语言模型(MM-LLMs)的设计、训练和性能,并提出了多种增强MM-LLMs效能的训练方法。
  • 其它亮点
    本论文介绍了26种不同的MM-LLMs,并总结了它们在各种主流基准测试上的表现。此外,论文还探讨了MM-LLMs的未来方向,并提供了一个实时跟踪网站以了解该领域的最新发展。
  • 相关研究
    近期的相关研究还包括:《GShard:跨GPU的大型模型并行化》、《Turing-NLG:A 17-billion-parameter language model by Microsoft》、《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论