Unifying Global and Local Scene Entities Modelling for Precise Action Spotting

简介

体育视频存在复杂的挑战，包括杂乱的背景、摄像机角度变化、小的代表动作的物体以及动作类别分布不均衡。现有的体育视频动作检测方法严重依赖全局特征，利用骨干网络作为一个黑匣子来包含整个空间帧。然而，这些方法往往忽略了场景的细微差别，难以检测占据帧的一小部分的动作。特别是，它们在处理涉及小物体的动作类别时，如足球中的球或黄/红牌，这些物体只占据屏幕空间的一小部分，会遇到困难。为了解决这些挑战，我们引入了一种新的方法，使用自适应注意机制分析和建模场景实体。特别地，我们的模型将场景内容分解为全局环境特征和局部相关场景实体特征。为了在考虑时间信息的同时有效地提取环境特征，我们提出了使用带有时间移位机制的2D骨干网络。为了准确捕捉相关场景实体，我们采用了视觉语言模型和自适应注意机制。我们的模型在SoccerNet-v2 Action Spotting、FineDiving和FineGym挑战中取得了卓越的表现，与亚军方法相比，avg-mAP分别提高了1.6、2.0和1.3个百分点。此外，我们的方法提供了可解释性能力，与其他深度学习模型相比，后者通常被设计为黑匣子。我们的代码和模型已在https://github.com/Fsoft-AIC/unifying-global-local-feature发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决体育视频中动作检测的问题，尤其是针对小物体占据屏幕空间的情况下的检测困难。
关键思路

该论文提出了一种新的方法，利用自适应注意机制对场景实体进行分析和建模。该模型将场景内容分解为全局环境特征和本地相关场景实体特征，并采用2D骨干网络和时间位移机制来高效地提取环境特征。
其它亮点

该模型在SoccerNet-v2 Action Spotting、FineDiving和FineGym挑战赛中表现出色，与其他方法相比平均mAP提高了1.6、2.0和1.3个点。此外，该方法具有可解释性，而其他深度学习模型则常常被设计为黑匣子。该论文代码和模型已在GitHub上开源。
相关研究

与此相关的最近研究包括《Learning to Localize Sound Source in Visual Scenes》、《Temporal Pyramid Network for Action Recognition》等。

Unifying Global and Local Scene Entities Modelling for Precise Action Spotting

提问交流

提问交流