论文链接:
Transformer在计算机视觉任务方面取得了很大的进展。Transformer-in-Transformer (TNT)体系结构利用内部Transformer和外部Transformer来提取局部和全局表示。在这项工作中,通过引入2种先进的设计来提出新的TNT Baseline:
- Pyramid Architecture:逐渐降低分辨率,提取多尺度表示
- Convolutional Stem:修补Stem和稳定训练
新的“PyramidTNT”通过建立层次表示,显著地改进了原来的TNT。
对图像分类和目标检测的实验证明了金字塔检测的优越性。具体来说,PyramidTNT-S在只有3.3B FLOPs的情况下获得了82.0%的ImageNet分类准确率,明显优于原来的TNT-S和Swin-T。
对于COCO检测,PyramidTNT-S比现有的Transformer和MLP检测模型以更少的计算成本实现42.0的mAP。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢