Adaptive Patching for High-resolution Image Segmentation with Transformers

简介

注意力机制模型在图像分析领域中越来越普及，包括分割。将图像分割成补丁然后将补丁作为令牌的线性序列馈送到变压器编码器模型中是馈送图像的标准方法。对于高分辨率图像，例如显微病理图像，如果我们要使用有利于分割的较小的补丁大小，则二次计算和内存成本会禁止使用基于注意力的模型。解决方法是使用自定义复杂的多分辨率模型或近似注意力方案。我们受到高性能计算中的自适应网格细化（AMR）方法的启发，通过根据图像细节自适应地对图像进行分块作为预处理步骤，以减少馈送到模型的补丁数量，减少数量级。这种方法具有可忽略的开销，并且与任何基于注意力的模型无缝配合使用，即它是一个预处理步骤，可以被任何基于注意力的模型无缝采用。我们在多达2048个GPU上，对高达64K²的分辨率进行了卓越的分割质量演示，同时获得了$6.9\times$的几何平均速度提升，超过了现有技术的分割模型。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决高分辨率图像分割中使用注意力机制模型时计算和内存成本过高的问题，提出自适应网格细化方法以减少输入到模型中的补丁数量。
关键思路

通过自适应网格细化方法将高分辨率图像分割问题转化为低分辨率图像分割问题，从而减少注意力机制模型的计算和内存成本。
其它亮点

论文提出的自适应网格细化方法可以与任何注意力机制模型无缝配合，且在多个真实病理数据集上表现出优异的分割效果。实验中使用了高达2048个GPU，取得了高达6.9倍的速度提升。论文开源了代码。
相关研究

近期研究主要集中在注意力机制模型的优化和近似，例如Lin等人提出的Swin Transformer模型和Wang等人提出的PVT模型。

Adaptive Patching for High-resolution Image Segmentation with Transformers

提问交流

提问交流