- 简介大型语言模型(LLMs)的发展已经扩展到多模态系统,这些系统能够在统一框架内处理文本、图像和语音。与仅处理文本的LLMs相比,训练这些模型需要显著更大的数据集和计算资源。为了解决扩展挑战,我们引入了Transformer混合体(MoT),这是一种稀疏的多模态Transformer架构,能够大幅降低预训练的计算成本。MoT按模态解耦非嵌入参数——包括前馈网络、注意力矩阵和层归一化——从而在全局自注意力覆盖整个输入序列的同时,实现特定模态的处理。我们在多种设置和模型规模下评估了MoT。在Chameleon 7B设置(自回归文本和图像生成)中,MoT仅使用55.8%的浮点运算次数(FLOPs)就能达到密集基线模型的性能。当扩展到包含语音时,MoT仅用37.2%的FLOPs就能达到与密集基线模型相当的语音性能。在Transfusion设置中,文本和图像以不同的目标进行训练,一个7B的MoT模型仅用三分之一的FLOPs就能匹配密集基线模型在图像模态上的性能,而一个7.6亿参数的MoT模型在关键图像生成指标上超过了14亿参数的密集基线模型。系统分析进一步突显了MoT的实际优势,在使用AWS p4de.24xlarge实例和NVIDIA A100 GPU的情况下,MoT仅需密集基线模型47.2%的时间就能达到相同的图像质量,75.6%的时间就能达到相同的文本质量。
- 图表
- 解决问题论文试图解决多模态大语言模型(LLMs)在训练过程中面临的计算成本高昂的问题。这是一个重要的问题,因为随着模型规模和模态数量的增加,训练这些模型所需的计算资源和时间也在急剧增长。
- 关键思路论文提出了Mixture-of-Transformers (MoT),一种稀疏的多模态Transformer架构。MoT通过按模态解耦非嵌入参数(如前馈网络、注意力矩阵和层归一化),实现了模态特定处理与全局自注意力的结合。这一方法显著减少了预训练的计算成本,同时保持了模型性能。
- 其它亮点论文在多个设置和模型规模上评估了MoT的效果。在Chameleon 7B设置下,MoT使用仅55.8%的FLOPs达到了与密集基线相当的性能;在包含语音的设置下,MoT仅用37.2%的FLOPs达到了相似的性能。此外,在Transfusion设置中,7B的MoT模型使用三分之一的FLOPs匹配了密集基线的图像模态性能,而760M的MoT模型在关键图像生成指标上超过了1.4B的密集基线。系统性能分析进一步表明,MoT在图像质量上达到密集基线水平的时间仅为47.2%,在文本质量上达到的时间为75.6%。论文还提供了详细的实验设计和系统配置,使用了AWS p4de.24xlarge实例和NVIDIA A100 GPU。论文没有提到代码是否开源,但提供了丰富的实验数据和结果,为进一步研究奠定了基础。
- 近期在多模态大语言模型的研究中,有几篇相关论文值得关注:1.《Perceiver IO: A General Architecture for Structured Inputs & Outputs》提出了一个通用架构,可以处理结构化的输入和输出。2.《FLAVA: A Foundational Language And Vision Alignment Model》介绍了FLAVA,一个用于语言和视觉对齐的基础模型。3.《Multimodal Pre-training with Unified Transformer》提出了一种统一的Transformer架构,用于多模态预训练。这些研究都在探索如何更高效地训练多模态模型,但MoT通过稀疏化的方法在计算效率上取得了显著进展。
沙发等你来抢
去评论
评论
沙发等你来抢