清华大学孙茂松教授提出全新微调框架CPT：用颜色融合图像和语言，准确率提升17.3%！

预训练模型在计算机视觉和语言上都取得了显著成果，但这些语言模型有一个大问题就是训练过程和推理过程不匹配。清华大学孙茂松团队提出了一个全新的微调框架CPT，用颜色来遮蔽、融合图像和语言，准确率提升17.3%，标准差降低73.8%！

清华大学的研究人员提出了一个新模型跨模态提示调节（Cross-Modal Prompt Tuning, CPT），也可以称为Colorful Prompt Tuning。CPT是一种调整VL-PTM参数的新范式，关键点在于通过在图像和文本中添加基于颜色的共同参照标记，视觉基础可以重新形成填补空白的问题，最大限度地减少预训练和微调之间的差距。