论文链接:
https://arxiv.org/abs/2205.09579
本文作者从实际应用的角度重新审视现有的Transformer
。它们中的大多数甚至不如基本的ResNets
系列高效,并且偏离了现实的部署场景。这可能是由于当前衡量计算效率的标准,例如FLOP
或参数
是片面的、次优的同时对硬件也不敏感的。
因此,本文直接将特定硬件上的TensorRT
延迟作为效率指标,提供了更全面的计算能力
、内存成本
和带宽反馈
。在一系列对照实验的基础上,本文得出了TensorRT
的4个设计指南,例如Stage-level
的Early CNN
和Late Transformer
,Block-level
的Early Transformer
和Late CNN
。
据此,作者提出了一个面向TensorRT
的Transformer
家族,简称TRT-ViT
。大量实验表明,TRT-ViT
在各种视觉任务(例如图像分类、目标检测和语义分割)的延迟/准确性权衡方面明显优于现有的 ConvNet
和视觉Transformer
。
例如,在ImageNet-1k
top-1 准确率为82.7% 时,TRT-ViT
比CSWin
快2.7倍,比Twins
快2.0倍。
在MS-COCO
目标检测任务上,TRT-ViT
实现了与Twins
相当的性能,同时推理速度提高了2.8倍。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢