本文提出了一种名为SimViT的简单而有效的视觉Transformer,它使用多头中央自注意力(MCSA)和简单的滑动窗口将空间结构和局部信息集成到ViT中,同时多尺度层次特征可以应用于各种密集预测视觉任务,代码将开源!

preview

单位:中科院, 国科大
代码:github.com/ucasligang/S
论文:arxiv.org/abs/2112.1308

尽管视觉Transformer在许多视觉任务中作为主干模型取得了出色的性能,但它们中的大多数都打算捕获图像或窗口中所有token的全局关系,这破坏了二维结构中patch之间固有的空间和局部相关性。

在本文中,我们介绍了一个名为 SimViT 的简单视觉 Transformer,将空间结构和局部信息整合到视觉 Transformer 中。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除