- 简介本文介绍了一种名为ASTRA的基于Transformer的模型,专门用于足球比赛中的动作定位任务。ASTRA解决了任务和数据集中存在的几个挑战,包括需要精确的动作定位、长尾数据分布、某些动作不可见以及固有的标签噪声。为此,ASTRA采用了以下策略:(a)Transformer编码器-解码器架构,以实现所需的输出时间分辨率并产生精确的预测结果;(b)平衡的mixup策略,以处理数据的长尾分布;(c)不确定性感知的位移头,以捕捉标签的可变性;(d)输入音频信号,以增强对不可见动作的检测。结果表明,ASTRA非常有效,测试集上的平均mAP为66.82。此外,在SoccerNet 2023动作定位挑战赛中,我们以70.21的平均mAP获得第三名。
-
- 图表
- 解决问题本文旨在解决足球比赛中动作检测的问题,包括精确的动作定位、长尾数据分布、某些动作的不可见性以及固有的标签噪声。
- 关键思路本文提出了ASTRA模型,采用Transformer编码器-解码器架构来实现所需的输出时间分辨率并产生精确的预测结果,采用平衡的mixup策略来处理数据的长尾分布,使用不确定性感知位移头来捕捉标签的可变性,并利用输入音频信号增强对不可见动作的检测。
- 其它亮点实验结果表明ASTRA模型的有效性,在测试集上实现了66.82的平均mAP。此外,在SoccerNet 2023 Action Spotting挑战赛中,我们以70.21的平均mAP获得了第三名。值得关注的是,本文使用了输入音频信号来增强对不可见动作的检测。
- 最近在这个领域中,还有一些相关的研究,如《Multi-modal Transformer for SoccerNet Action Spotting》、《Weakly-Supervised Action Spotting in Soccer Videos Using Transformer-based Models》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流