字节用4大准则教你设计一个拥有CNN的速度，Transformer精度的模型！

论文链接：

本文作者从实际应用的角度重新审视现有的Transformer。它们中的大多数甚至不如基本的ResNets系列高效，并且偏离了现实的部署场景。这可能是由于当前衡量计算效率的标准，例如FLOP或参数是片面的、次优的同时对硬件也不敏感的。

因此，本文直接将特定硬件上的TensorRT延迟作为效率指标，提供了更全面的计算能力、内存成本和带宽反馈。在一系列对照实验的基础上，本文得出了TensorRT的4个设计指南，例如Stage-level的Early CNN和Late Transformer，Block-level的Early Transformer和Late CNN。

据此，作者提出了一个面向TensorRT的Transformer家族，简称TRT-ViT。大量实验表明，TRT-ViT在各种视觉任务（例如图像分类、目标检测和语义分割）的延迟/准确性权衡方面明显优于现有的 ConvNet和视觉Transformer。

例如，在ImageNet-1k top-1 准确率为82.7% 时，TRT-ViT比CSWin快2.7倍，比Twins快2.0倍。

在MS-COCO目标检测任务上，TRT-ViT实现了与Twins相当的性能，同时推理速度提高了2.8倍。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

字节用4大准则教你设计一个拥有CNN的速度，Transformer精度的模型！

评论