作者:岳晓宇(博智感知交互研究中心);孙书洋(牛津大学);旷章辉(商汤科技);魏萌(清华大学);Philip Torr(牛津大学);张伟(商汤科技、上海交通大学清源研究院);林达华(香港中文大学、博智感知交互研究中心)。
论文链接:https://arxiv.org/pdf/2108.01684.pdf
代码:https://github.com/yuexy/PS-ViT
摘要:
Transformer这种具有强力全局编码能力的网络最近被应用于计算机视觉任务,例如ViT直接使用了一个Transformer来解决图像分类任务。为了处理二维图像数据,ViT简单地将图像分割,并映射成一个一维的序列。这种简单的分割使得图像固有的结构信息丢失,使得网络很难关注到重要的物体区域。为了解决这个问题,本文提出了一种迭代渐进采样策略来定位重要区域。具体来说,本文提出的progressive sampling模块,在每次迭代都会利用全局信息对采样位置进行更新,从而使得网络可以逐渐关注到感兴趣的信息。
图1. PS模块结构图
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢