- 简介最近 CLIP 取得了成功,通过将多模态知识转移到像素级分类中,展示了零样本语义分割的有希望的结果。然而,利用预训练的 CLIP 知识来紧密对齐文本嵌入和像素嵌入仍然存在限制。为了解决这个问题,我们提出了 OTSeg,一种新颖的多模态注意机制,旨在增强多个文本提示匹配相关像素嵌入的潜力。我们首先提出了基于最优传输(OT)算法的多提示 Sinkhorn(MPS),它使多个文本提示选择性地关注图像像素中的各种语义特征。此外,受 Sinkformers 在单模态设置中的成功启发,我们引入了 MPS 的扩展,称为多提示 Sinkhorn 注意(MPSA),它有效地替换了 Transformer 框架中的跨注意机制。通过广泛的实验,我们证明了 OTSeg 在三个基准数据集上的零样本语义分割任务中取得了最先进的(SOTA)性能,并显著提高了性能。
- 图表
- 解决问题本文旨在解决使用预训练CLIP知识进行像素级分类时,将文本嵌入与像素嵌入密切对齐的限制问题。
- 关键思路本文提出了OTSeg,一种新的多模态注意机制,旨在增强多个文本提示与像素嵌入匹配的潜力。通过引入基于最优传输算法的多提示Sinkhorn(MPS)和多提示Sinkhorn注意力(MPSA)机制,实现了文本嵌入与像素嵌入的有效匹配。
- 其它亮点本文在三个基准数据集上进行了广泛的实验,结果表明OTSeg在零样本语义分割(ZS3)任务上实现了最先进的性能,并取得了显著的收益。
- 最近的相关研究包括:CLIP、Sinkformers等。
沙发等你来抢
去评论
评论
沙发等你来抢