ICCV 2021 | 渐进采样的vision transformer

作者：岳晓宇（博智感知交互研究中心)；孙书洋（牛津大学）；旷章辉（商汤科技）；魏萌（清华大学)；Philip Torr(牛津大学)；张伟(商汤科技、上海交通大学清源研究院)；林达华(香港中文大学、博智感知交互研究中心)。

论文链接：https://arxiv.org/pdf/2108.01684.pdf

代码：https://github.com/yuexy/PS-ViT

摘要：

Transformer这种具有强力全局编码能力的网络最近被应用于计算机视觉任务，例如ViT直接使用了一个Transformer来解决图像分类任务。为了处理二维图像数据，ViT简单地将图像分割，并映射成一个一维的序列。这种简单的分割使得图像固有的结构信息丢失，使得网络很难关注到重要的物体区域。为了解决这个问题，本文提出了一种迭代渐进采样策略来定位重要区域。具体来说，本文提出的progressive sampling模块，在每次迭代都会利用全局信息对采样位置进行更新，从而使得网络可以逐渐关注到感兴趣的信息。

图1. PS模块结构图

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ICCV 2021 | 渐进采样的vision transformer

评论列表

评论