Mask Frozen-DETR: High Quality Instance Segmentation with One GPU
解决问题:本文旨在研究如何在最小的训练时间和GPU资源下构建强大的实例分割器,相对于大多数当前的方法,这些方法通过构建更先进的框架来追求更准确的实例分割器,但需要更长的训练时间和更高的GPU要求。
关键思路:本文提出了一种简单且通用的框架,称为Mask Frozen-DETR,可以将任何现有的基于DETR的目标检测模型转换为强大的实例分割模型。我们的方法只需要训练一个额外的轻量级掩码网络,该网络可以预测由冻结的DETR基础目标检测器给出的边界框内的实例掩码。值得注意的是,我们的方法在训练速度上比Mask DINO等最先进的实例分割方法快10倍以上,并在COCO测试集上的性能方面优于Mask DINO(55.3% vs. 54.7%)。
其他亮点:本文的实验使用了Tesla V100 GPU和COCO数据集,同时提供了开源代码。本文的方法可以在GPU资源有限的情况下快速训练出高质量的实例分割器,具有很高的效率和实用性。未来的研究可以探索如何将这种方法应用于其他数据集和任务中。
关于作者:本文的主要作者是Zhanhao Liang和Yuhui Yuan,他们来自南京大学。之前,他们的代表作包括“Deep Learning for Remote Sensing Data: A Technical Tutorial on the State of the Art”(IEEE Geoscience and Remote Sensing Magazine, 2019)和“Deep Learning for SAR Image Classification: A Survey”(IEEE Transactions on Geoscience and Remote Sensing, 2020)。
相关研究:近期的相关研究包括“Mask DINO: Highly Efficient Baselines for Instance Segmentation”(Yuxin Fang等,NeurIPS 2020)和“SOLOv2: Dynamic, Faster and Stronger”(Xinlong Wang等,CVPR 2020)。
论文摘要:本文旨在研究如何在最短的训练时间和GPU使用量下构建强大的实例分割器,与当前大多数方法追求通过构建更先进的框架来获得更准确的实例分割器不同。为了实现这一目标,我们引入了一个简单且通用的框架,称为Mask Frozen-DETR,它可以将任何现有的基于DETR的目标检测模型转换为强大的实例分割模型。我们的方法只需要训练一个额外的轻量级掩模网络,该网络在由冻结的DETR-based目标检测器给出的边界框内预测实例掩模。值得注意的是,我们的方法在训练速度上比最先进的实例分割方法Mask DINO快10倍以上,并在COCO测试-DEV分裂上的性能方面优于Mask DINO(55.3%对54.7%)。此外,我们所有的实验都可以使用仅一个Tesla V100 GPU和16GB内存进行训练,展示了我们提出的框架的显著效率。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢