本文提出一种新型的轻量级Transformer网络,具有两个增强的自注意力机制,以提高移动部署的模型性能,在分类/检测/分割任务上综合表现优秀!代码将开源!

单位:JHU, Adobe
代码:github.com/Chenglin-Yan
论文:arxiv.org/abs/2112.1080

尽管视觉Transformer模型具有令人印象深刻的表示能力,但当前的轻量级视觉Transformer模型在局部区域仍然存在不一致和不正确的密集预测。我们怀疑他们的自注意力机制在"更浅和更薄"的网络中受到限制。

我们提出了 Lite Vision Transformer (LVT),这是一种新型的轻量级Transformer网络,具有两个增强的自注意力机制,以提高移动部署的模型性能。

内容中包含的图片若涉及版权问题,请及时与我们联系删除