作者:Nihal V. Nayak, Peilin Yu, Stephen H. Bach

简介:本文提出组合软提示Compose Soft Prompts (CSP)的参数高效学习技术。大规模预训练视觉语言模型 (VLM) 可以在其灵活的文本编码器中将任意类表示为自然语言提示,但它们在组合零样本基准任务上的表现并不如意。为改进 VLM,作者提出了一种新颖的软提示形式CSP技术,CSP将可以提高VLM的零样本学习组合性,而无需花费代价去微调整个模型。作者将组成以定义类的属性和对象视为词汇的可学习标记,并在多个提示组合上调优调整。在推理过程中,作者将学习到的属性对象词汇表重新组合成新的组合,并表明 CSP 在基准数据集上的性能平均优于原始 VLM 14.7 个百分点的准确度。CSP 还在三分之二的基准数据集上实现了SOTA精度,同时仅微调了少量参数。此外,作者表明 CSP 改进了对高阶属性-属性-对象组合以及预训练属性和微调对象组合的泛化。

 

论文下载:https://arxiv.org/pdf/2204.03574.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除