Motion meets Attention: Video Motion Prompts

向作者提问

NEW

简介

视频包含丰富的时空信息。传统的提取运动的方法，例如动作识别，通常依赖于视觉内容而非精确的运动特征。这种现象被称为“盲目运动提取”行为，由于缺乏运动引导线索，证明在捕捉感兴趣的动作方面效率低下。最近，注意力机制通过有效地突出显著的视觉区域，增强了许多计算机视觉任务。受此启发，我们提出使用具有可学习斜率和偏移参数的修改Sigmoid函数作为注意力机制，以激活和调节从帧差分图中提取的运动信号。这种方法生成一系列注意力图，增强运动相关视频内容的处理。为确保注意力图的时间连续性和平滑性，我们应用成对的时间注意力变化正则化来消除不必要的运动（例如噪声），同时保留重要的运动。然后，我们对每对注意力图和原始视频帧执行哈达玛积，以突出随时间演变的感兴趣的运动。这些突出的运动称为视频运动提示，随后用作模型的输入，而不是原始视频帧。我们将这个过程形式化为运动提示层，并将正则化项合并到损失函数中以学习更好的运动提示。这个层作为模型和视频数据之间的适配器，弥合了传统的“盲目运动提取”和提取相关感兴趣运动之间的差距。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决传统的运动提取方法在捕捉运动目标方面存在的问题，并提出一种基于注意力机制的运动提示层，以更好地提取相关的运动信息。这是一个新问题，因为传统的运动提取方法无法准确地捕捉感兴趣的运动目标。
关键思路

该论文的关键思路是使用可学习的Sigmoid函数作为注意力机制来激活和调节从帧差分图中提取的运动信号，生成一系列增强运动相关视频内容处理的注意力图。然后，通过对每一对注意力图和原始视频帧进行Hadamard乘积，突出显示随时间变化的感兴趣的运动。这些突出显示的运动被称为视频运动提示，并用作模型的输入。
其它亮点

该论文的实验结果表明，运动提示层可以显著提高视频分类和动作识别的性能，并且在不同数据集和模型上均具有普适性。此外，论文还提出了一种新的正则化方法，用于确保注意力图的时间连续性和平滑性。
相关研究

最近的相关研究包括使用注意力机制来增强计算机视觉任务的其他方面，如图像分类和目标检测。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问