- 简介视觉Transformer(ViT)将输入图像分割为大小统一的图像块,而不论其内容如何,这导致高分辨率图像产生较长的输入序列。我们提出了自适应图像块Transformer(APT),该方法通过在同一幅图像内使用多种不同尺寸的图像块来解决这一问题。APT在更均匀的区域分配较大的图像块,在更复杂的区域则使用较小的图像块,从而减少输入token的总数。APT显著加快了ViT的推理和训练速度,在ViT-L上使吞吐量提升40%,在ViT-H上提升50%,同时保持下游任务性能,并且可应用于已微调过的ViT模型,仅需约1个训练周期即可收敛。此外,APT在高分辨率密集视觉任务中显著缩短了训练和推理时间,且不损失性能,在视觉问答、目标检测和语义分割等任务中实现了最高达30%的训练与推理加速。
-
- 图表
- 解决问题Vision Transformers (ViTs) 将输入图像划分为固定大小的图像块,导致高分辨率图像产生过长的序列长度,造成计算效率低下,尤其是在训练和推理时消耗大量资源。尽管已有方法尝试优化ViT效率,但大多牺牲了模型性能。本文试图验证:是否可以通过根据图像内容自适应地调整不同区域的patch大小,在保持下游任务性能的同时显著提升ViT的计算效率。这是一个实际且重要的问题,尤其在高分辨率密集预测任务中日益突出,但此前较少有工作在单张图像内动态调整patch粒度。
- 关键思路提出 Adaptive Patch Transformers (APT),其核心思想是:在同一张图像中使用多种不同的patch尺寸——在纹理简单、颜色均匀的区域使用更大的patch以减少token数量,在复杂、细节丰富的区域使用更小的patch以保留关键信息。这种自适应分块策略显著降低了输入序列长度,从而加速训练和推理。相比现有固定分块或全局下采样的方法,APT首次实现了图像内部的细粒度、内容感知的动态分块,并可直接应用于已微调好的ViT模型,仅需1个epoch即可收敛,具备极强的即插即用性。
- 其它亮点实验设计覆盖图像分类、视觉问答、目标检测和语义分割等多个下游任务,在ViT-L和ViT-H上验证了有效性。结果显示训练和推理吞吐量分别提升40%(ViT-L)和50%(ViT-H),高分辨率任务中训练和推理速度加快最多达30%,且性能无损。值得注意的是,APT无需重新预训练,可在已有微调模型上快速适配(1 epoch收敛)。论文未明确提及代码是否开源,但方法设计具有高度实用性,未来可探索与稀疏注意力、神经架构搜索等结合,进一步推动高效视觉建模方向的发展。
- 1. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 2. PVT: Pyramid Vision Transformer 3. Dynamic ViT: Efficient Vision Transformers with Adaptive Token Sparsification 4. IA-RED^2: Interpretable Adaptive Resolution for Efficient Detection 5. FastVit: Rapid Convergence of Vision Transformers with Token Superfusion
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流