CLIP在零样本图像识别任务上取得的成就有目共睹,而其成功很大程度归功于训练数据:4亿张互联网图片以及描述该图片的自然语句。

 

相较于ImageNet的“单物体-单词标签”形式,本文认为CLIP可以做出更密集且语义更丰富的预测。举个例子:在预训练阶段,为了正确地将“女孩抱着泰迪熊向花园看去”匹配到其所对应图片,模型需要同时理解“女孩”、“泰迪熊”、“花园”等名词,以及“抱着”、“看去”等动词。另外,由于并不规定固定的目标词汇集,模型需要尽量理解图片中所有的元素。以上观察驱使本文探索CLIP在密集预测任务上(如语义分割)的潜力。

 

通过对CLIP进行简单修改,本文提出的MaskCLIP在不需要任何标签和微调的情况下取得了不错的性能,而进一步利用MaskCLIP的预测作为伪标签进行训练得到的MaskCLIP+模型更是达到了远超零样本分割SOTA的性能表现。

 

论文链接: https://arxiv.org/abs/2112.01071

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除