- 简介现有的行动质量评估(AQA)方法主要学习视频级别的深度表示来评分不同的行动。由于缺乏对视频中行动的细粒度理解,它们严重受到低可信度和可解释性的影响,因此不足以用于严格的应用,例如奥运会跳水比赛。我们认为,对行动的细粒度理解需要模型在时间和空间上感知和解析行动,这也是AQA技术的可信度和可解释性的关键。基于这一认识,我们提出了一种新的细粒度时空行动解析器FineParser。它通过专注于每帧中的目标行动区域并利用它们在时间和空间上的细粒度对齐来学习以人为中心的前景行动表示,以最小化评估过程中无效背景的影响。此外,我们构建了FineDiving-HM数据集的细粒度人为中心前景行动掩码的精细注释。FineDiving-HM可以促进真实世界AQA系统的发展,因为它具有不同目标行动过程的精细注释。通过广泛的实验,我们证明了FineParser的有效性,它在支持更多细粒度行动理解任务的同时,优于现有的最先进方法。数据和代码可在\url{https://github.com/PKU-ICST-MIPL/FineParser_CVPR2024}上获取。
- 图表
- 解决问题论文旨在解决现有行动质量评估(AQA)方法在视频级别学习深度表示时缺乏对动作的细粒度理解,从而导致其可信度和可解释性不足的问题,提出了一种FineParser的空间-时间行动解析器,以实现对动作的细粒度理解。
- 关键思路FineParser通过在每个帧内集中在目标动作区域并利用它们在时间和空间上的细粒度对齐来学习以人为中心的前景动作表示,从而最小化评估过程中无效背景的影响。
- 其它亮点论文构建了FineDiving-HM数据集,提供了对多种目标动作过程的细粒度注释,可以促进真实世界AQA系统的发展。FineParser在多项任务上的实验中表现出色,优于现有的方法。数据和代码都已开源。
- 与该论文相关的研究包括:1. 'Temporal Action Detection with Structured Segment Networks',2. 'Attentional Pooling for Action Recognition',3. 'Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition'等。
沙发等你来抢
去评论
评论
沙发等你来抢