MM-LLMs: Recent Advances in MultiModal Large Language Models

简介

过去一年，多模式大语言模型（MM-LLMs）取得了重大进展，通过成本效益的训练策略，增强了现成的LLMs以支持MM输入或输出。由此产生的模型不仅保留了LLMs固有的推理和决策能力，还赋予了各种各样的MM任务。在本文中，我们提供了一份全面的调查报告，旨在促进MM-LLMs的进一步研究。具体而言，我们首先概述了模型架构和训练流程的一般设计公式。随后，我们简要介绍了26种现有的MM-LLMs，每种都具有其特定的公式。此外，我们还回顾了MM-LLMs在主流基准测试中的表现，并总结了提高MM-LLMs效力的关键训练方法。最后，我们探讨了MM-LLMs的有前途的方向，同时维护一个实时跟踪网站，以了解该领域的最新发展。我们希望这份调查报告对于MM-LLMs领域的持续发展有所贡献。
图表
解决问题

本论文旨在提供一个全面的综述，以促进多模式大语言模型（MM-LLMs）的进一步研究。具体来说，论文介绍了模型架构和训练流程的一般设计公式，并简要介绍了26种现有的MM-LLMs，同时回顾了MM-LLMs在主流基准测试上的表现和关键训练方法，最后探讨了MM-LLMs的有前途的方向。
关键思路

本论文的关键思路是介绍多模式大语言模型（MM-LLMs）的设计、训练和性能，并提出了多种增强MM-LLMs效能的训练方法。
其它亮点

本论文介绍了26种不同的MM-LLMs，并总结了它们在各种主流基准测试上的表现。此外，论文还探讨了MM-LLMs的未来方向，并提供了一个实时跟踪网站以了解该领域的最新发展。
相关研究

近期的相关研究还包括：《GShard：跨GPU的大型模型并行化》、《Turing-NLG：A 17-billion-parameter language model by Microsoft》、《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》等。

MM-LLMs: Recent Advances in MultiModal Large Language Models

评论