- 简介即使使用大型多模态基础模型,few-shot学习仍然具有挑战性——如果没有适当的归纳偏差,就几乎不可能保留微妙的类属性,同时删除与类标签虚假相关的视觉突出属性。为此,我们发现一种归纳偏差,即扩散模型(DM)的时间步骤可以隔离微妙的类属性,即随着前向扩散在每个时间步骤向图像添加噪声,微妙属性通常比与类标签虚假相关的虚假属性更早丢失。在此基础上,我们提出了时间步few-shot(TiF)学习器。我们为文本条件的DM训练特定于类的低秩适配器,以弥补丢失的属性,从而可以根据提示准确重建其嘈杂的图像。因此,在小的时间步骤中,适配器和提示实际上是仅微妙类属性的参数化。对于测试图像,我们可以使用参数化来仅提取微妙的类属性进行分类。TiF学习器在各种细粒度和定制的few-shot学习任务上显着优于OpenCLIP及其适配器。代码在https://github.com/yue-zhongqi/tif。
- 图表
- 解决问题TiF learner试图解决few-shot learning中难以保留微妙的类别属性的问题,提出了使用Diffusion Model的时间步骤来区分微妙和表面属性,并使用低秩适配器来恢复微妙属性的方法。
- 关键思路使用Diffusion Model的时间步骤来区分微妙和表面属性,并使用低秩适配器来恢复微妙属性。在小时间步骤下,适配器和提示本质上是微妙类别属性的参数化。
- 其它亮点TiF learner在各种细粒度和定制的few-shot学习任务中显著优于OpenCLIP和其适配器。作者提供了代码和数据集。
- 最近的相关研究包括OpenCLIP和其适配器等。
沙发等你来抢
去评论
评论
沙发等你来抢