A Practitioner's Guide to Continual Multimodal Pretraining

简介

多模态基础模型在视觉和语言交叉领域中应用广泛。尽管这些模型已经在大量数据上进行了预训练，但它们随着时间的推移会变得过时。为了使模型保持更新，对于持续预训练的研究主要探索以下两种情况：(1)对大规模新数据进行不频繁、不加区分的更新，或者(2)对样本进行频繁的更新。然而，实际的模型部署通常在这两种极端情况之间运作，因为真实世界的应用往往需要适应特定的子领域、任务或概念，并且在整个模型的变化生命周期中分散在各个时间点。在本研究中，我们通过一个研究测试平台来补充当前关于持续预训练的观点，并提供全面的指导，以便在这种情况下有效地对模型进行持续更新。我们首先介绍了FoMo-in-Flux，这是一个连续的多模态预训练基准，具有现实的计算限制和实际的部署要求，它由63个具有不同视觉和语义覆盖范围的数据集构成。使用FoMo-in-Flux，我们通过多个角度探索了实际持续预训练的复杂情况：(1)数据为中心的研究，研究数据混合和流顺序，以模拟真实世界的部署情况，(2)方法为中心的研究，范围从简单的微调和传统的持续学习策略到参数高效的更新和模型合并，(3)元学习率调度和机械设计选择，以及(4)模型和计算规模的影响。总之，我们的见解为实际部署的持续多模态预训练提供了从业者指南。我们的基准和代码在这里：https://github.com/ExplainableML/fomo_in_flux。
图表
解决问题

本文旨在通过一个基准测试平台和全面指南，提供实现多模态预训练模型持续更新的有效方法，以适应特定子域、任务或概念的需求。
关键思路

通过FoMo-in-Flux基准测试平台，从数据、方法、元学习和模型设计等多个角度探索了实际多模态预训练的复杂领域，提供了针对实际部署的从简单微调到参数高效更新和模型合并的持续模型更新方法。
其它亮点

本文提供了一个实用的FoMo-in-Flux基准测试平台，由63个具有多样化视觉和语义覆盖的数据集构成。实验探索了多个角度，包括数据混合和流顺序、方法选择、元学习率调度、模型和计算规模等。研究结果为实现多模态预训练模型的持续更新提供了全面指南。
相关研究

最近相关研究包括《Unsupervised Learning of Visual-Semantic Embeddings》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。

A Practitioner's Guide to Continual Multimodal Pretraining

评论