虽然Vision Transformer(ViT)在计算机视觉领域取得了显著的成功,但由于缺乏内部补丁信息交互和特征尺度的有限多样性,它在密集预测任务中表现不佳。大多数现有研究致力于设计视觉特定的变压器来解决上述问题,这会引入额外的预训练成本。因此,我们提出了一种简单、无需预训练和功能增强的ViT骨干网络,名为ViT-CoMer,它具有卷积多尺度特征交互,有助于CNN和变压器之间的双向交互。与最先进的技术相比,ViT-CoMer具有以下优点:(1)我们将空间金字塔多感受野卷积特征注入ViT架构中,有效缓解了ViT中有限的局部信息交互和单一特征表示问题。(2)我们提出了一种简单高效的CNN-Transformer双向融合交互模块,可在分层特征之间进行多尺度融合,有利于处理密集预测任务。(3)我们评估了ViT-CoMer在各种密集预测任务、不同框架和多个高级预训练方案下的性能。值得注意的是,我们的ViT-CoMer-L在没有额外训练数据的情况下,在COCO val2017上实现了64.3%的AP,在ADE20K val上实现了62.1%的mIoU,两者都与最先进的方法相当。我们希望ViT-CoMer能成为密集预测任务的新骨干网络,促进未来的研究。代码将在https://github.com/Traffic-X/ViT-CoMer上发布。
 
提问交流