Learning Correlation Structures for Vision Transformers

简介

我们介绍了一种新的注意力机制，称为结构自注意力（StructSA），它利用了在注意力的键-查询交互中自然出现的丰富相关模式。StructSA通过卷积识别键-查询相关性的时空结构生成注意力图，并使用它们动态聚合值特征的局部上下文。这有效地利用了图像和视频中丰富的结构模式，如场景布局、物体运动和物体间关系。使用StructSA作为主要构建块，我们开发了结构视觉变换器（StructViT），并在图像和视频分类任务上评估了其有效性，在ImageNet-1K、Kinetics-400、Something-Something V1 & V2、Diving-48和FineGym上取得了最先进的结果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决图像和视频分类任务中注意力机制的不足，特别是忽略了图像和视频中自然产生的关联性结构。
关键思路

StructSA是一种新的自注意力机制，可以识别关键查询交互中自然产生的空间-时间结构，并使用卷积动态聚合局部上下文，从而有效利用图像和视频中的结构模式。
其它亮点

论文提出的StructSA和StructViT在多个图像和视频分类数据集上取得了最新的最佳结果。实验表明，StructSA可以更好地捕捉图像和视频中的结构信息，而StructViT是一种高效且可扩展的模型。论文还提供了开源代码和预训练模型。
相关研究

最近的相关研究包括：'Attention is all you need'，'Vision transformer'，'Swin Transformer'等。

Learning Correlation Structures for Vision Transformers

提问交流

提问交流