OneLLM: One Framework to Align All Modalities with Language

简介

本文介绍了一种名为OneLLM的多模态大语言模型（MLLM），其具有强大的多模态理解能力。然而，现有的研究主要依赖于特定模态的编码器，这些编码器通常在架构上有所不同，并且仅限于常见的模态。本文提出了一种统一的多模态编码器和渐进式多模态对齐流程，通过将八种模态与语言对齐来实现。具体而言，首先训练一个图像投影模块将视觉编码器与LLM连接起来。然后，通过混合多个图像投影模块和动态路由来构建通用投影模块（UPM）。最后，使用UPM逐步将更多模态对齐到LLM上。为了充分利用OneLLM在遵循指令方面的潜力，我们还策划了一个包括来自图像、音频、视频、点云、深度/法线图、IMU和fMRI脑活动的综合多模态指令数据集，共计2M个条目。OneLLM在25个不同的基准测试中进行了评估，包括多模态字幕生成、问答和推理等任务，表现出优秀的性能。代码、数据、模型和在线演示均可在https://github.com/csuhan/OneLLM上获取。
图表
解决问题

论文旨在解决多模态大语言模型中存在的模态特定编码器的限制，提出了一种统一框架的OneLLM模型，用于将八种模态与语言进行对齐。
关键思路

OneLLM通过统一的多模态编码器和渐进式的多模态对齐管道实现八种模态与语言之间的对齐，其中使用了图像投影模块和通用投影模块。
其它亮点

论文提供了一个包括图像、音频、视频、点云、深度/法线图、IMU和fMRI脑活动在内的综合多模态指令数据集，OneLLM在25个不同的基准测试中表现出优秀的性能，论文还提供了代码、数据、模型和在线演示。
相关研究

最近的相关研究包括：《Unicoder-VL：一个统一的视觉语言预训练框架》、《MCAN:混合上下文注意网络用于多模态推理》、《多模态对话系统：生成、评估和可解释性》等。

OneLLM: One Framework to Align All Modalities with Language

评论