- 简介本文介绍了一种名为“视觉重编程(VR)”的提示技术,其目的是通过学习添加到输入图像中的小规模模式,而不是调整模型中的大量参数,来重新定位预训练模型(例如ImageNet上的分类器)以针对目标任务(例如医疗数据预测)。输入样本中模式的位置通常由在所有样本之间共享的预定义掩码确定。本文表明,共享掩码可能会限制VR的泛化性,并增加其近似误差,因为缺乏样本级别的适应性。在这一发现的基础上,我们设计了一种名为“样本特定多通道掩码(SMM)”的VR新框架。具体而言,SMM采用轻量级ConvNet和补丁插值来生成样本特定的三通道掩码,而不是共享和预定义的掩码。由于我们为每个样本生成不同的掩码,SMM在理论上被证明相对于现有最先进的VR方法,可以减少目标任务的近似误差。我们还在ResNet和ViT上进行了实证演示,证明了其性能提升。SMM的成功进一步凸显了VR在利用预训练模型的潜在知识,为各种目标任务提供广泛适用性的能力。我们的代码可在https://github.com/tmlr-group/SMM上获得。
- 图表
- 解决问题本论文旨在解决Visual reprogramming (VR)技术中,由于共享的预定义掩码限制了其泛化能力和增加了近似误差的问题。
- 关键思路本文提出了一种新的VR框架,称为样本特定多通道掩码(SMM),通过使用轻量级ConvNet和补丁插值生成样本特定的三通道掩码,以替代共享的预定义掩码。这种方法可以减少近似误差,提高目标任务的性能。
- 其它亮点本文的实验表明,SMM相比现有的VR方法在ResNet和ViT上均有性能提升。此外,本文的代码已经在Github上开源。
- 最近的相关研究包括:《Learning to Learn Image Classifiers with Visual Analogy》、《Adversarial Reprogramming of Neural Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢