FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance

2024年07月08日
  • 简介
    CLIP在预训练大规模配对图像-文本数据集后,实现了令人印象深刻的零样本性能。先前的研究利用手动设计的视觉提示,如彩色圆圈和模糊掩模,将其纳入图像中以指导模型的注意力,从而在下游任务中展现了增强的零样本性能。虽然这些方法取得了有希望的结果,但它们不可避免地改变了图像的原始信息,这可能导致特定任务失败。我们提出了一种无需训练的方法Foveal-Attention CLIP(FALIP),它通过将中央凹视觉掩模插入多头自注意力模块来调整CLIP的注意力。我们证明了FALIP有效地提高了CLIP在指称表达理解、图像分类和3D点云识别等任务中的零样本性能。实验结果进一步表明,FALIP在大多数指标上优于现有方法,并且可以增强当前方法以提高其性能。
  • 图表
  • 解决问题
    本论文旨在提出一种新的方法FALIP,通过在多头自注意力模块中插入凹形注意力掩码,从而调整CLIP的注意力,以提高其零样本性能。
  • 关键思路
    本文的关键思路是使用FALIP方法来增强CLIP的注意力,而不需要进行任何训练。该方法通过在多头自注意力模块中插入凹形注意力掩码,来调整CLIP的注意力,从而提高其零样本性能。
  • 其它亮点
    本文提出的FALIP方法在指代表达理解、图像分类和三维点云识别等任务中,都能有效提高CLIP的零样本性能。实验结果表明,FALIP在大多数指标上优于现有方法,并可以增强当前方法的性能。本文还提供了数据集和代码,方便其他研究者进行进一步研究。
  • 相关研究
    与本文相关的研究包括利用手动设计的视觉提示来指导模型的注意力的方法,以及其他一些使用不同技术来增强CLIP性能的方法。例如,ViT和DeiT等模型也使用了自注意力机制,但是它们的注意力是均匀分布的,而FALIP则通过插入凹形注意力掩码来调整CLIP的注意力。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论