多模态基础模型在视觉和语言交叉领域中应用广泛。尽管这些模型已经在大量数据上进行了预训练,但它们随着时间的推移会变得过时。为了使模型保持更新,对于持续预训练的研究主要探索以下两种情况:(1)对大规模新数据进行不频繁、不加区分的更新,或者(2)对样本进行频繁的更新。然而,实际的模型部署通常在这两种极端情况之间运作,因为真实世界的应用往往需要适应特定的子领域、任务或概念,并且在整个模型的变化生命周期中分散在各个时间点。在本研究中,我们通过一个研究测试平台来补充当前关于持续预训练的观点,并提供全面的指导,以便在这种情况下有效地对模型进行持续更新。我们首先介绍了FoMo-in-Flux,这是一个连续的多模态预训练基准,具有现实的计算限制和实际的部署要求,它由63个具有不同视觉和语义覆盖范围的数据集构成。使用FoMo-in-Flux,我们通过多个角度探索了实际持续预训练的复杂情况:(1)数据为中心的研究,研究数据混合和流顺序,以模拟真实世界的部署情况,(2)方法为中心的研究,范围从简单的微调和传统的持续学习策略到参数高效的更新和模型合并,(3)元学习率调度和机械设计选择,以及(4)模型和计算规模的影响。总之,我们的见解为实际部署的持续多模态预训练提供了从业者指南。我们的基准和代码在这里:https://github.com/ExplainableML/fomo_in_flux。
提问交流