- 简介本文探索通过对整个VLM进行细致的改进来捕捉任务特定信息,以最小的参数调整来有效增强预训练的视觉语言模型(VLM)在下游任务中的表现。然而,当调整后的模型应用于不同的数据集或领域时,它们往往以灵活性和适应性为代价。在有限的监督下对特定任务进行整个VLM微调时,过拟合和灾难性遗忘成为事实上的因素。为了缓解这些问题,我们提出了一个名为CLIP-CITE的框架,通过设计一种有区别的视觉-文本任务,进一步以监督的方式对视觉-文本语义进行对齐,并整合知识蒸馏技术以保留所获得的知识。在少样本学习、从基础到新的泛化、领域泛化和跨领域泛化设置下进行的广泛实验结果表明,我们的方法在有限的监督下有效增强了特定任务的性能,同时保留了VLM在其他数据集上的通用性。
- 图表
- 解决问题本文旨在通过精细调整整个VLM,以最小的参数调整来捕获特定任务的信息,从而提高模型的性能,同时保留模型在其他数据集上的通用性。
- 关键思路CLIP-CITE框架通过设计一种有区别的视觉-文本任务,进一步以监督方式对视觉-文本语义进行对齐,并整合知识蒸馏技术来缓解过拟合和灾难性遗忘等问题。
- 其它亮点实验结果表明,CLIP-CITE框架在有限的监督下有效提高了特定任务的性能,同时在其他数据集上保留了VLM的通用性。实验设计涉及few-shot learning,基于新的泛化,域泛化和跨域泛化。论文提供了开源代码。
- 最近在这个领域中,还有一些相关的研究,如:《MARGE: Pre-training via Paraphrasing》、《ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
沙发等你来抢
去评论
评论
沙发等你来抢