LVT：具有增强自注意力的Lite视觉Transformer

本文提出一种新型的轻量级Transformer网络，具有两个增强的自注意力机制，以提高移动部署的模型性能，在分类/检测/分割任务上综合表现优秀！代码将开源！

单位：JHU, Adobe
代码：https://github.com/Chenglin-Yang/LVT
论文：https://arxiv.org/abs/2112.10809

尽管视觉Transformer模型具有令人印象深刻的表示能力，但当前的轻量级视觉Transformer模型在局部区域仍然存在不一致和不正确的密集预测。我们怀疑他们的自注意力机制在"更浅和更薄"的网络中受到限制。

我们提出了 Lite Vision Transformer (LVT)，这是一种新型的轻量级Transformer网络，具有两个增强的自注意力机制，以提高移动部署的模型性能。

内容中包含的图片若涉及版权问题，请及时与我们联系删除