Generalizing vision-language models to novel domains: A comprehensive survey

2025年06月23日
  • 简介
    近年来,视觉-语言预训练作为一种突破性技术迅速兴起,它融合了视觉与文本两种模态的优势,催生出强大的视觉-语言模型(VLMs)。借助大规模网络数据进行预训练,这些模型展现出出色的零样本能力。然而,当面对特定领域或专业化的泛化任务时,其性能往往会下降。为应对这一挑战,越来越多的研究致力于将VLMs中蕴含的丰富知识迁移并泛化到各类下游应用中。本文旨在全面总结VLM文献中的泛化设置、方法、基准测试及结果。通过对典型的VLM结构进行剖析,现有研究被划分为基于提示的方法、基于参数的方法以及基于特征的方法三大类。结合对典型迁移学习(TL)设置的回顾,进一步总结和探讨了每一类方法的差异与特点,并为VLM时代下的迁移学习提供了新的解读视角。文章还介绍了当前主流的VLM泛化基准测试平台,并对所综述方法的性能进行了详尽对比。随着大规模可泛化预训练技术的发展,本文也探讨了VLM与最新的多模态大语言模型(MLLM)之间的联系与区别,例如DeepSeek-VL。通过从一个新颖且实用的泛化视角出发,系统性地梳理快速增长的视觉-语言研究文献,本文为当前与未来的多模态研究勾勒出一幅清晰的图景。
  • 图表
  • 解决问题
    论文试图解决视觉-语言模型(VLMs)在领域特定或专业泛化任务中表现下降的问题。尽管这些模型在零样本学习设置下表现出色,但如何将它们丰富的知识迁移到下游应用中仍然是一个挑战。这是一个新兴且重要的问题,特别是在大规模预训练模型的背景下。
  • 关键思路
    论文的核心思路是通过系统性地总结和分类现有的迁移学习方法,包括基于提示(prompt-based)、基于参数(parameter-based)和基于特征(feature-based)的方法,来提升VLMs在不同任务上的泛化能力。此外,它还提出了对迁移学习在VLM时代的新解读,并讨论了VLM与多模态大语言模型(MLLM)之间的关系。
  • 其它亮点
    1. 全面综述了VLM的泛化设置、方法、基准测试和结果。 2. 深入分析了典型VLM结构及其迁移模块的分类。 3. 比较了不同迁移学习方法在流行基准数据集上的性能。 4. 探讨了VLM与最新多模态大语言模型(如DeepSeek-VL)的关系。 5. 为未来多模态研究提供了清晰的视角和方向。 6. 可能涉及多个视觉-语言基准测试,例如COCO、VQA、NLVR2等。
  • 相关研究
    1. Align before Fuse: Vision and Language Representation Learning with a Separated Encoder (ECCV 2022) 2. FILIP: Fine-grained Interactive Language-Image Pre-training (ICLR 2022) 3. Flamingo: a Visual Language Model for Few-Shot Learning (NeurIPS 2022) 4. BLIP-2: Bootstrapping Language-Image Pre-training for Few-shot Learning (CVPR 2023) 5. KOSMOS-1: A Multimodal Foundation Model with Unified Tokenization and Dynamic Contextual Learning (ACL 2023)
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论