ViTGaze: Gaze Following with Interaction Features in Vision Transformers

简介

本文讨论了注视跟随技术，旨在通过预测人的注视焦点来解释人-场景交互。目前的方法通常使用多模态输入，大多采用两阶段框架，因此它们的性能高度依赖于先前的预测准确性。其他方法使用复杂的解码器进行单模态方法，增加了网络的计算负荷。受到预训练纯视觉Transformer（ViTs）的显着成功的启发，我们引入了一种新的单模态注视跟随框架ViTGaze。与以前的方法不同，ViTGaze主要基于功能强大的编码器（dec. param.小于1%）创建了全新的注视跟随框架。我们的主要见解在于，自我注意力中的令牌间相互作用可以转化为人与场景之间的相互作用。利用这个假设，我们构建了一个框架，包括一个4D交互编码器和一个2D空间引导模块，从自我注意力映射中提取人-场景交互信息。此外，我们的研究表明，具有自我监督预训练的ViT表现出提取相关信息的增强能力。大量实验已进行，证明了所提出方法的性能。我们的方法在所有单模态方法中实现了最先进的性能（AUC提高了3.4％，AP提高了5.1％），并且与多模态方法相比，参数数量少了59％，性能非常相似。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：该论文旨在解决人眼注视预测中的多模态输入和复杂解码器问题，提出了一种基于Vision Transformers的单模态注视预测框架。
关键思路

关键思路：该论文的关键思路是利用预训练的Vision Transformers的编码器来提取人与场景之间的交互信息，通过一个4D交互编码器和一个2D空间引导模块来实现。
其它亮点

其他亮点：论文通过大量实验表明，该方法在单模态方法中表现最好（AUC提高了3.4％，AP提高了5.1％），并且与多模态方法相比，参数数量少了59％。该论文使用了自己的数据集，并且公开了代码。
相关研究

相关研究：最近的相关研究包括使用多模态输入和复杂解码器的方法，例如MMTF和STAGE，以及利用Vision Transformers的其他方法，例如ViT-BERT和ViT-LXMERT。

ViTGaze: Gaze Following with Interaction Features in Vision Transformers

提问交流

提问交流