MDS-ViTNet: Improving saliency prediction for Eye-Tracking with Vision Transformer

向作者提问

NEW

简介

本文提出了一种称为MDS-ViTNet（基于Vision Transformer网络的多解码器显著性）的新方法，用于增强视觉显著性预测或眼动跟踪。该方法在多个领域具有重要潜力，包括市场营销、医学、机器人技术和零售业。我们提出了一种网络架构，利用Vision Transformer，超越了传统的ImageNet骨干。该框架采用编码器-解码器结构，其中编码器利用Swin Transformer高效地嵌入最重要的特征。这个过程涉及到一种迁移学习方法，在这种方法中，Vision Transformer的层被编码器Transformer转换，并无缝地集成到CNN解码器中。这种方法确保了原始输入图像的最小信息损失。解码器采用多解码技术，利用双解码器生成两个不同的注意力图。这些图随后通过额外的CNN模型合并为单个输出。我们训练的模型MDS-ViTNet在多个基准测试中取得了最先进的结果。为了促进进一步的合作，我们打算将我们的代码、模型和数据集公开。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文提出了一种名为MDS-ViTNet的新方法，旨在增强视觉显著性预测或眼动追踪。该方法可在各种领域中发挥重要作用，包括市场营销、医学、机器人和零售等。主要问题是如何提高视觉显著性的预测效果。
关键思路

本文提出了一种新的网络架构，使用Vision Transformer作为编码器，并采用Swin Transformer来嵌入最重要的特征。采用了Transfer Learning方法，将Vision Transformer的层转换为编码器Transformer，并无缝地集成到CNN解码器中。解码器采用多解码技术，利用双解码器生成两个不同的注意力图，然后通过另一个CNN模型将这些图组合成一个单一的输出。
其它亮点

本文的亮点包括采用了Vision Transformer作为编码器，使用Swin Transformer嵌入最重要的特征，同时使用Transfer Learning方法和多解码技术来提高预测效果。实验使用了多个数据集，并在多个基准测试中取得了最先进的结果。作者还承诺将其代码、模型和数据集公开。
相关研究

在这个领域中，最近的相关研究包括使用Transformer网络进行视觉显著性预测的研究，如ViT、DeiT等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问