标题:华中、腾讯、复旦等|TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation(TopFormer:用于移动语义分割的符号金字塔变换器)

作者:Wenqiang Zhang, Zilong Huang, Chunhua Shen等

简介:本文介绍了一种移动适配的图像分割算法。尽管视觉变换器 (ViTs) 取得了计算机视觉巨大的成就,沉重的计算成本阻碍了它们在密集预测任务中的应用,例如作为移动设备上的语义分割。 在这个论文作者提出了一个名为TopFormer的移动友好符号金字塔视觉变换器架构。提出的TopFormer将不同尺度的符号作为输入,产生尺度感知的语义特征,然后在注入相应的符号以增加表示。实验结果表明,作者方法显着优于基于CNN和ViT的网络,适用于多个语义分割数据集并且在准确性和延迟之间取得了很好的平衡。在ADE20K数据集上,基于ARM的移动设备,与MobileNetV3相比TopFormer提高了5%,mIoU的准确性更高,延迟更低。 此外,TopFormer微小的版本在ARM移动设备上实现了实时推理,具有竞争力的结果。

代码下载:https://github.com/hustvl/TopFormer

论文下载:https://arxiv.org/pdf/2204.05525.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除