Learning Correlation Structures for Vision Transformers

2024年04月05日
  • 简介
    我们介绍了一种新的注意力机制,称为结构自注意力(StructSA),它利用了在注意力的键-查询交互中自然出现的丰富相关模式。StructSA通过卷积识别键-查询相关性的时空结构生成注意力图,并使用它们动态聚合值特征的局部上下文。这有效地利用了图像和视频中丰富的结构模式,如场景布局、物体运动和物体间关系。使用StructSA作为主要构建块,我们开发了结构视觉变换器(StructViT),并在图像和视频分类任务上评估了其有效性,在ImageNet-1K、Kinetics-400、Something-Something V1 & V2、Diving-48和FineGym上取得了最先进的结果。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决图像和视频分类任务中注意力机制的不足,特别是忽略了图像和视频中自然产生的关联性结构。
  • 关键思路
    StructSA是一种新的自注意力机制,可以识别关键查询交互中自然产生的空间-时间结构,并使用卷积动态聚合局部上下文,从而有效利用图像和视频中的结构模式。
  • 其它亮点
    论文提出的StructSA和StructViT在多个图像和视频分类数据集上取得了最新的最佳结果。实验表明,StructSA可以更好地捕捉图像和视频中的结构信息,而StructViT是一种高效且可扩展的模型。论文还提供了开源代码和预训练模型。
  • 相关研究
    最近的相关研究包括:'Attention is all you need','Vision transformer','Swin Transformer'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问