Lipsum-FT: Robust Fine-Tuning of Zero-Shot Models Using Random Text Guidance

简介

大规模对比视觉语言预训练模型提供了零-shot模型，在不需要对下游数据进行训练的情况下，在一系列图像分类任务中实现了竞争性能。最近的研究证实，虽然在参考数据上对零-shot模型进行额外的微调可以提高下游性能，但会损害模型对分布变化的鲁棒性。我们的研究从考察实现鲁棒微调的条件开始，采用基于特征扭曲理论和联合能量模型的描述。随后，我们提出了一种新颖的鲁棒微调算法Lipsum-FT，该算法有效地利用了视觉语言预训练模型的语言建模方面。在DomainNet和ImageNet的分布变化场景下进行的广泛实验证实了我们提出的Lipsum-FT方法优于现有的鲁棒微调方法。
图表
解决问题

本论文旨在解决大规模对比视觉语言预训练模型在下游任务中的鲁棒性问题。
关键思路

论文提出了一种新的鲁棒的微调算法Lipsum-FT，该算法有效地利用了视觉语言预训练模型的语言建模方面。
其它亮点

论文通过对特征扭曲理论和联合能量模型的描述，研究了实现鲁棒微调的条件。在DomainNet和ImageNet的分布转移场景下进行的广泛实验证实了Lipsum-FT方法相对于现有的鲁棒微调方法的优越性。
相关研究

在这个领域中，最近的相关研究包括：CLIP、ViLBERT、UNITER等。