- 简介本文提出了一种称为MDS-ViTNet(基于Vision Transformer网络的多解码器显著性)的新方法,用于增强视觉显著性预测或眼动跟踪。该方法在多个领域具有重要潜力,包括市场营销、医学、机器人技术和零售业。我们提出了一种网络架构,利用Vision Transformer,超越了传统的ImageNet骨干。该框架采用编码器-解码器结构,其中编码器利用Swin Transformer高效地嵌入最重要的特征。这个过程涉及到一种迁移学习方法,在这种方法中,Vision Transformer的层被编码器Transformer转换,并无缝地集成到CNN解码器中。这种方法确保了原始输入图像的最小信息损失。解码器采用多解码技术,利用双解码器生成两个不同的注意力图。这些图随后通过额外的CNN模型合并为单个输出。我们训练的模型MDS-ViTNet在多个基准测试中取得了最先进的结果。为了促进进一步的合作,我们打算将我们的代码、模型和数据集公开。
-
- 图表
- 解决问题本文提出了一种名为MDS-ViTNet的新方法,旨在增强视觉显著性预测或眼动追踪。该方法可在各种领域中发挥重要作用,包括市场营销、医学、机器人和零售等。主要问题是如何提高视觉显著性的预测效果。
- 关键思路本文提出了一种新的网络架构,使用Vision Transformer作为编码器,并采用Swin Transformer来嵌入最重要的特征。采用了Transfer Learning方法,将Vision Transformer的层转换为编码器Transformer,并无缝地集成到CNN解码器中。解码器采用多解码技术,利用双解码器生成两个不同的注意力图,然后通过另一个CNN模型将这些图组合成一个单一的输出。
- 其它亮点本文的亮点包括采用了Vision Transformer作为编码器,使用Swin Transformer嵌入最重要的特征,同时使用Transfer Learning方法和多解码技术来提高预测效果。实验使用了多个数据集,并在多个基准测试中取得了最先进的结果。作者还承诺将其代码、模型和数据集公开。
- 在这个领域中,最近的相关研究包括使用Transformer网络进行视觉显著性预测的研究,如ViT、DeiT等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流