论文链接:

https://arxiv.org/abs/2205.09579

本文作者从实际应用的角度重新审视现有的Transformer。它们中的大多数甚至不如基本的ResNets系列高效,并且偏离了现实的部署场景。这可能是由于当前衡量计算效率的标准,例如FLOP参数是片面的、次优的同时对硬件也不敏感的。

因此,本文直接将特定硬件上的TensorRT延迟作为效率指标,提供了更全面的计算能力内存成本带宽反馈。在一系列对照实验的基础上,本文得出了TensorRT的4个设计指南,例如Stage-levelEarly CNNLate TransformerBlock-levelEarly TransformerLate CNN

据此,作者提出了一个面向TensorRTTransformer家族,简称TRT-ViT。大量实验表明,TRT-ViT在各种视觉任务(例如图像分类、目标检测和语义分割)的延迟/准确性权衡方面明显优于现有的 ConvNet和视觉Transformer

例如,在ImageNet-1k top-1 准确率为82.7% 时,TRT-ViTCSWin快2.7倍,比Twins快2.0倍。

MS-COCO目标检测任务上,TRT-ViT实现了与Twins相当的性能,同时推理速度提高了2.8倍。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除