- 简介在这项工作中,我们介绍了可操纵变换器(Steerable Transformers),这是视觉变换器机制的扩展,可以保持对特殊欧几里得群$\mathrm{SE}(d)$的等变性。我们提出了一个等变的注意机制,它可以操作由可操纵卷积提取的特征。在傅里叶空间中操作,我们的网络利用傅里叶空间的非线性性。我们在二维和三维的实验中发现,将可操纵变换器编码器层添加到可操纵卷积网络中可以提高性能。
- 图表
- 解决问题本论文旨在介绍一种新的神经网络结构,即Steerable Transformers,用于解决在计算机视觉领域中特定欧几里得群SE(d)等变性问题。
- 关键思路本论文提出了一种等变的注意力机制,它基于可旋转卷积提取的特征,在傅里叶空间中运作,并利用傅里叶空间非线性性质,通过在Steerable Convolution网络中添加Steerable Transformer编码器层来提高性能。
- 其它亮点本文的实验在2D和3D中进行,证明了添加Steerable Transformer编码器层可以提高性能。值得关注的是,本文提出的Steerable Transformers结构可以应用于其他领域,如自然语言处理等。本文还开源了代码。
- 在这个领域中,最近的相关研究包括:《An Intriguing Failing of Convolutional Neural Networks and the CoordConv Solution》、《Equivariant Attention Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢