iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency

2024年07月10日
  • 简介
    近年来,混合模型的出现引入了另一种解决计算机视觉任务的变革性方法,逐渐摆脱了传统的CNN(卷积神经网络)和ViT(视觉Transformer)。然而,还没有足够的努力来有效地结合这两种方法,以改善捕捉复杂图像中普遍存在的长程依赖关系。在本文中,我们介绍了iiANET(启发式注意力网络),这是一个高效的混合模型,旨在捕捉复杂图像中的长程依赖关系。基本构建块iiABlock将全局2D-MHSA(多头自注意力)与寄存器、MBConv2(基于MobileNetV2的卷积)和扩张卷积并行集成,使模型能够巧妙地利用自我注意力捕捉长程依赖关系,同时利用MBConv2有效地提取局部细节并利用扩张卷积高效地扩展内核感受野以捕获更多的上下文信息。最后,我们在每个iiABlock的末尾串行集成了ECANET(高效通道注意力网络),以校准通道注意力以增强模型性能。在各种基准测试上进行广泛的定性和定量比较评估,证明了相对于一些最先进的模型,性能得到了改进。
  • 图表
  • 解决问题
    iiANET旨在解决如何高效地结合CNN和ViT两种方法以捕捉复杂图像中的长距离依赖关系的问题。
  • 关键思路
    iiANET采用了一种新的混合模型,将全局2D-MHSA、MBConv2和扩张卷积并行集成在一个iiABlock中,以便在捕捉长距离依赖关系的同时有效地提取局部细节和更多的上下文信息。
  • 其它亮点
    论文进行了广泛的实验评估,证明了该模型相对于一些最先进的模型具有更好的性能。此外,论文还开源了代码,并使用了多个数据集进行实验。
  • 相关研究
    最近的相关研究包括CNN和ViT的研究,以及使用注意力机制来捕捉长距离依赖关系的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论