Enhancing Temporal Action Localization: Advanced S6 Modeling with Recurrent Mechanism

2024年07月18日
  • 简介
    时序动作定位(TAL)是视频分析中的关键任务,可以确定动作的精确开始和结束时间。现有的方法,如CNN、RNN、GCN和Transformer在捕捉长期依赖性和时间因果关系方面存在局限性。为了解决这些挑战,我们提出了一种新颖的TAL架构,利用选择性状态空间模型(S6)。我们的方法集成了特征聚合双S6块、双重Bi-S6结构和循环机制,以增强时间和通道依赖性建模,同时不增加参数复杂性。对基准数据集的广泛实验表明,我们的方法在THUMOS-14上的mAP得分为74.2%,在ActivityNet上为42.9%,在FineAction上为29.6%,在HACS上为45.8%,达到了最先进的结果。消融研究验证了我们方法的有效性,显示了Stem模块中的双重结构和循环机制优于传统方法。我们的发现展示了基于S6的模型在TAL任务中的潜力,为未来的研究铺平了道路。
  • 图表
  • 解决问题
    提出一种新的Temporal Action Localization (TAL)架构,解决现有方法在捕捉长期依赖和时间因果关系方面的局限性。
  • 关键思路
    利用Selective State Space Model (S6)进行TAL任务,结合Feature Aggregated Bi-S6块、Dual Bi-S6结构和递归机制,增强时间和通道依赖性建模。
  • 其它亮点
    在基准数据集上进行了广泛的实验,取得了mAP分数的最新成果,证明了该方法的有效性。实验结果表明,Stem模块中的Dual结构和递归机制优于传统方法。
  • 相关研究
    最近在TAL领域中,还有一些相关的研究,如:《ActionSearch: Spotting Actions in Videos and Its Application to Temporal Action Localization》、《Weakly Supervised Temporal Action Localization with Iterative Learning》、《Temporal Action Localization with Pyramid of Score Distribution Features》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论