ICCV2021 | 渐进采样式Vision Transformer

ViT通过简单地将图像分割成固定长度的tokens，并使用transformer来学习这些tokens之间的关系。tokens化可能会破坏对象结构，将网格分配给背景等不感兴趣的区域，并引入干扰信号。

为了缓解上述问题，本文提出了一种迭代渐进采样策略来定位区分区域。在每次迭代中，当前采样步骤的嵌入被馈送到transformer编码层，并预测一组采样偏移量以更新下一步的采样位置。渐进抽样是可微的。当与视觉transformer相结合时，获得的PS-ViT网络可以自适应地学习到哪里去看。

PS-ViT既有效又高效。在ImageNet上从头开始训练时，PS-VIT的TOP-1准确率比普通VIT高3.8%，参数减少了大约4倍，FLOP减少了10倍。