- 简介时序动作定位(TAL)是视频分析中的关键任务,可以确定动作的精确开始和结束时间。现有的方法,如CNN、RNN、GCN和Transformer在捕捉长期依赖性和时间因果关系方面存在局限性。为了解决这些挑战,我们提出了一种新颖的TAL架构,利用选择性状态空间模型(S6)。我们的方法集成了特征聚合双S6块、双重Bi-S6结构和循环机制,以增强时间和通道依赖性建模,同时不增加参数复杂性。对基准数据集的广泛实验表明,我们的方法在THUMOS-14上的mAP得分为74.2%,在ActivityNet上为42.9%,在FineAction上为29.6%,在HACS上为45.8%,达到了最先进的结果。消融研究验证了我们方法的有效性,显示了Stem模块中的双重结构和循环机制优于传统方法。我们的发现展示了基于S6的模型在TAL任务中的潜力,为未来的研究铺平了道路。
- 图表
- 解决问题提出一种新的Temporal Action Localization (TAL)架构,解决现有方法在捕捉长期依赖和时间因果关系方面的局限性。
- 关键思路利用Selective State Space Model (S6)进行TAL任务,结合Feature Aggregated Bi-S6块、Dual Bi-S6结构和递归机制,增强时间和通道依赖性建模。
- 其它亮点在基准数据集上进行了广泛的实验,取得了mAP分数的最新成果,证明了该方法的有效性。实验结果表明,Stem模块中的Dual结构和递归机制优于传统方法。
- 最近在TAL领域中,还有一些相关的研究,如:《ActionSearch: Spotting Actions in Videos and Its Application to Temporal Action Localization》、《Weakly Supervised Temporal Action Localization with Iterative Learning》、《Temporal Action Localization with Pyramid of Score Distribution Features》等。
沙发等你来抢
去评论
评论
沙发等你来抢