- 简介我们介绍了一种新的注意力机制,称为结构自注意力(StructSA),它利用了在注意力的键-查询交互中自然出现的丰富相关模式。StructSA通过卷积识别键-查询相关性的时空结构生成注意力图,并使用它们动态聚合值特征的局部上下文。这有效地利用了图像和视频中丰富的结构模式,如场景布局、物体运动和物体间关系。使用StructSA作为主要构建块,我们开发了结构视觉变换器(StructViT),并在图像和视频分类任务上评估了其有效性,在ImageNet-1K、Kinetics-400、Something-Something V1 & V2、Diving-48和FineGym上取得了最先进的结果。
-
- 图表
- 解决问题论文旨在解决图像和视频分类任务中注意力机制的不足,特别是忽略了图像和视频中自然产生的关联性结构。
- 关键思路StructSA是一种新的自注意力机制,可以识别关键查询交互中自然产生的空间-时间结构,并使用卷积动态聚合局部上下文,从而有效利用图像和视频中的结构模式。
- 其它亮点论文提出的StructSA和StructViT在多个图像和视频分类数据集上取得了最新的最佳结果。实验表明,StructSA可以更好地捕捉图像和视频中的结构信息,而StructViT是一种高效且可扩展的模型。论文还提供了开源代码和预训练模型。
- 最近的相关研究包括:'Attention is all you need','Vision transformer','Swin Transformer'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流