MaskInversion: Localized Embeddings via Optimization of Explainability Maps

2024年07月29日
  • 简介
    视觉语言基础模型,如CLIP,在全局视觉语言对齐方面取得了巨大的成果,但在创建特定图像区域的表示方面仍然存在一些限制。为了解决这个问题,我们提出了MaskInversion方法,该方法利用预训练的基础模型(如CLIP)的特征表示,在测试时为由掩码指定的查询图像区域生成上下文感知嵌入。MaskInversion从初始化嵌入令牌开始,并将其可解释性映射与查询掩码进行比较。然后,通过最小化其可解释性映射和查询掩码之间的差异,依次对嵌入令牌进行精细调整,以逼近查询区域。在此过程中,仅更新嵌入向量,而基础模型保持冻结,从而允许使用MaskInversion与任何预训练模型。由于推导可解释性映射涉及计算梯度,这可能是昂贵的,因此我们提出了一种梯度分解策略,简化了这种计算。所学习的区域表示可用于广泛的任务,包括开放词汇类检索、指称表达理解,以及定位字幕和图像生成。我们在PascalVOC、MSCOCO、RefCOCO和OpenImagesV7等多个数据集上评估了所提出的方法,并展示了其与其他SOTA方法的能力。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决视觉-语言基础模型在特定图像区域表示方面的局限性。
  • 关键思路
    论文提出了一种名为MaskInversion的方法,利用预训练基础模型(如CLIP)的特征表示生成一个上下文感知的嵌入,以查询掩模指定的图像区域为基础。该方法通过最小化解释性映射与查询掩模之间的差异来逐步优化嵌入向量,生成学习到的区域表示。
  • 其它亮点
    论文提出的MaskInversion方法在多个数据集上进行了评估,包括PascalVOC、MSCOCO、RefCOCO和OpenImagesV7,展示了其在开放词汇类检索、指称表达理解、本地化字幕和图像生成等任务中的能力。此外,论文提出了一种梯度分解策略,简化了解释性映射的计算。
  • 相关研究
    最近的相关研究包括UNITER、ViLBERT和VisualBERT等视觉-语言模型,以及SEAL、LXMERT和ERNIE-ViL等特定任务模型。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问