- 简介视觉Transformer(ViT)因其优秀的关系建模能力而备受关注。然而,其全局注意机制的二次复杂度带来了巨大的计算负担。一种常见的解决方法是将令牌在空间上分组进行自注意,从而降低计算要求。然而,这种策略忽略了令牌中的语义信息,可能会将语义相关的令牌分散到不同的组中,从而损害了旨在建模令牌间依赖关系的自注意的效果。在这些认识的基础上,我们介绍了一种快速且平衡的聚类方法,称为\textbf{S}emantic \textbf{E}quitable \textbf{C}lustering(SEC)。SEC以一种高效而直接的方式基于令牌的全局语义相关性对其进行聚类。与需要多次迭代的传统聚类方法不同,我们的方法可以在一次遍历中实现令牌聚类。此外,SEC调节每个聚类中的令牌数量,确保有效平衡的分布,以在当前计算平台上进行有效的并行处理,而无需进行进一步的优化。利用SEC,我们提出了一种通用的视觉骨干网络,SecViT。在图像分类、目标检测、实例分割和语义分割方面的全面实验验证了SecViT的有效性。值得注意的是,SecViT仅使用\textbf{27M}个参数和\textbf{4.4G} FLOPs就可以达到惊人的\textbf{84.2\%}的图像分类准确率,无需额外的监督或数据。代码将在\url{https://github.com/qhfan/SecViT}上提供。
- 图表
- 解决问题论文旨在解决Vision Transformer(ViT)中全局注意力机制的二次复杂度问题,提出了一种快速且平衡的聚类方法,以提高ViT的效率和性能。
- 关键思路论文提出的解决方案是一种名为Semantic Equitable Clustering(SEC)的聚类方法,该方法基于全局语义相关性将令牌聚类,以提高自我关注的效率和性能。
- 其它亮点论文提出的SecViT在图像分类、目标检测、实例分割和语义分割等任务中取得了显著的性能,且仅使用了27M个参数和4.4G FLOPs。此外,论文还开源了代码。
- 最近的相关研究包括:《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》、《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》等。
沙发等你来抢
去评论
评论
沙发等你来抢