Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen Convolutional CLIP
解决问题:这篇论文旨在解决开放词汇语义分割的问题,即需要从一个开放的目标类别集合中分割和识别对象。采用多模态模型,如CLIP,提供图像和文本特征在共享嵌入空间中,以弥合封闭词汇和开放词汇识别之间的差距是解决这个挑战的一种方式。
关键思路:与现有方法采用的两阶段框架相比,本文提出了一种单阶段框架,使用共享的Frozen Convolutional CLIP骨干网络,将所有内容都构建到单个框架中。这不仅显着简化了当前的两阶段流程,而且显著提高了准确性成本的权衡。该方法利用了以下观察结果:Frozen CLIP骨干网络保持了开放词汇分类的能力,也可以作为一个强大的掩膜生成器,而卷积CLIP可以推广到比对比图像文本预训练使用的更大的输入分辨率。
其他亮点:本文的实验使用了COCO panoptic数据集,以零样本方式在ADE20K、Mapillary Vistas和Cityscapes数据集上进行了测试,实现了26.8 PQ、16.8 AP和34.1 mIoU在ADE20K上,18.2 PQ、27.9 mIoU在Mapillary Vistas上,44.0 PQ、26.8 AP和56.2 mIoU在Cityscapes上的结果,相比之前的方法,分别提高了+4.2 PQ、+2.4 AP、+4.2 mIoU在ADE20K上,+4.0 PQ在Mapillary Vistas上和+20.1 PQ在Cityscapes上,同时训练和测试时间比之前的方法快了7.5倍和6.6倍,使用的参数量少了5.9倍。此外,FC-CLIP在各种开放词汇语义分割数据集上也取得了新的最佳性能。代码在https://github.com/bytedance/fc-clip。
关于作者:本文的主要作者是Qihang Yu、Ju He、Xueqing Deng、Xiaohui Shen和Liang-Chieh Chen。他们来自字节跳动、腾讯、中科视拓和谷歌等机构。以Liang-Chieh Chen为例,他之前的代表作包括Mask R-CNN、Faster R-CNN等。
相关研究:近期的相关研究包括:“Aligning Text and Image with Transformers for Open Vocabulary Scene Text Recognition”(作者:Xu-Yao Zhang、Shangbang Long、Cong Yao、Fei Yin、Qingfeng Liu,机构:南京大学、商汤科技)、“Dual Attention Network for Scene Segmentation”(作者:Zilong Huang、Xinggang Wang、Jiaolong Yang、Wenyu Liu、Zhong Liu,机构:华中科技大学、清华大学)等。
论文摘要:本文研究了一种具有挑战性的任务:从一组开放类别中分割和识别对象的开放词汇分割。解决此问题的一种方法是利用多模态模型,例如CLIP,提供共享嵌入空间中的图像和文本特征,以弥合封闭词汇和开放词汇识别之间的差距。因此,现有方法通常采用两阶段框架来解决该问题,其中输入首先经过一个掩码生成器,然后通过预测的掩码与CLIP模型一起进行处理。相比之下,本文提出了一种单阶段框架,使用共享的Frozen Convolutional CLIP骨干网络,将所有内容集成在一起,不仅显着简化了当前的两阶段流水线,而且在精度成本权衡方面也有显著的提升。所提出的FC-CLIP从以下观察中受益:冻结的CLIP骨干网络保持了开放词汇分类的能力,也可以作为一个强大的掩码生成器,而卷积CLIP对于比对比图像-文本预训练中使用的输入分辨率更大的输入分辨率具有很好的泛化能力。在仅使用COCO panoptic数据进行训练,并以零样本方式进行测试时,FC-CLIP在ADE20K上实现了26.8 PQ,16.8 AP和34.1 mIoU,在Mapillary Vistas上实现了18.2 PQ,27.9 mIoU,在Cityscapes上实现了44.0 PQ,26.8 AP和56.2 mIoU,分别比现有技术高出+4.2 PQ,+2.4 AP,+4.2 mIoU(ADE20K),+4.0 PQ(Mapillary Vistas)和+20.1 PQ(Cityscapes)。此外,FC-CLIP的训练和测试时间比相同的先前技术快7.5倍和6.6倍,同时使用的参数少5.9倍。FC-CLIP还在各种开放词汇语义分割数据集上创造了新的最先进的性能。代码在https://github.com/bytedance/fc-clip。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢