Steerable Transformers

简介

在这项工作中，我们介绍了可操纵变换器（Steerable Transformers），这是视觉变换器机制的扩展，可以保持对特殊欧几里得群$\mathrm{SE}(d)$的等变性。我们提出了一个等变的注意机制，它可以操作由可操纵卷积提取的特征。在傅里叶空间中操作，我们的网络利用傅里叶空间的非线性性。我们在二维和三维的实验中发现，将可操纵变换器编码器层添加到可操纵卷积网络中可以提高性能。
图表
解决问题

本论文旨在介绍一种新的神经网络结构，即Steerable Transformers，用于解决在计算机视觉领域中特定欧几里得群SE(d)等变性问题。
关键思路

本论文提出了一种等变的注意力机制，它基于可旋转卷积提取的特征，在傅里叶空间中运作，并利用傅里叶空间非线性性质，通过在Steerable Convolution网络中添加Steerable Transformer编码器层来提高性能。
其它亮点

本文的实验在2D和3D中进行，证明了添加Steerable Transformer编码器层可以提高性能。值得关注的是，本文提出的Steerable Transformers结构可以应用于其他领域，如自然语言处理等。本文还开源了代码。
相关研究

在这个领域中，最近的相关研究包括：《An Intriguing Failing of Convolutional Neural Networks and the CoordConv Solution》、《Equivariant Attention Networks》等。