- 简介虽然Vision Transformer(ViT)在计算机视觉领域取得了显著的成功,但由于缺乏内部补丁信息交互和特征尺度的有限多样性,它在密集预测任务中表现不佳。大多数现有研究致力于设计视觉特定的变压器来解决上述问题,这会引入额外的预训练成本。因此,我们提出了一种简单、无需预训练和功能增强的ViT骨干网络,名为ViT-CoMer,它具有卷积多尺度特征交互,有助于CNN和变压器之间的双向交互。与最先进的技术相比,ViT-CoMer具有以下优点:(1)我们将空间金字塔多感受野卷积特征注入ViT架构中,有效缓解了ViT中有限的局部信息交互和单一特征表示问题。(2)我们提出了一种简单高效的CNN-Transformer双向融合交互模块,可在分层特征之间进行多尺度融合,有利于处理密集预测任务。(3)我们评估了ViT-CoMer在各种密集预测任务、不同框架和多个高级预训练方案下的性能。值得注意的是,我们的ViT-CoMer-L在没有额外训练数据的情况下,在COCO val2017上实现了64.3%的AP,在ADE20K val上实现了62.1%的mIoU,两者都与最先进的方法相当。我们希望ViT-CoMer能成为密集预测任务的新骨干网络,促进未来的研究。代码将在https://github.com/Traffic-X/ViT-CoMer上发布。
- 图表
- 解决问题论文旨在解决Vision Transformer在密集预测任务中由于缺乏内部补丁信息交互和特征规模有限性而表现不佳的问题,提出了一种新的解决方案。
- 关键思路论文提出了一种名为ViT-CoMer的新的ViT骨干网络,通过引入空间金字塔多感受野卷积特征和CNN-Transformer双向融合交互模块,增强了特征表示和多尺度特征融合,从而有效地解决了Vision Transformer在密集预测任务中的问题。
- 其它亮点ViT-CoMer是一种简单、无需预训练、特征增强的ViT骨干网络,能够有效地处理密集预测任务。论文使用了COCO和ADE20K等数据集进行了实验评估,并取得了与当前最先进方法相当的结果。此外,论文作者还将代码开源。
- 在这个领域中,最近的相关研究包括:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale、Swin Transformer: Hierarchical Vision Transformer using Shifted Windows等。
沙发等你来抢
去评论
评论
沙发等你来抢