- 简介动作质量评估(AQA)已成为一个新兴的主题,因为它可以广泛应用于许多场景。然而,大多数现有的方法和数据集都集中于单人短序列场景,阻碍了AQA在更复杂情况下的应用。为解决这个问题,我们构建了一个新的多人长视频数据集,用于动作质量评估,名为LOGO。在场景复杂性方面,我们的数据集包括了26个艺术游泳比赛的200个视频样本,每个样本有8名运动员,平均持续时间为204.2秒。在注释丰富性方面,LOGO包括形态标签以描述多个运动员的团体信息,并对动作过程进行了详细注释。此外,我们提出了一种简单而有效的方法来建模运动员之间的关系,并推断长视频中的潜在时间逻辑。具体来说,我们设计了一个群体感知的注意力模块,可以轻松地插入到现有的AQA方法中,以基于上下文群体信息丰富剪辑表示。为了对LOGO进行基准测试,我们系统地研究了几种流行的AQA和动作分割方法的性能。结果揭示了我们的数据集带来的挑战。广泛的实验还表明,我们的方法在LOGO数据集上达到了最先进的水平。数据集和代码将在\url{https://github.com/shiyi-zh0408/LOGO}上发布。
- 图表
- 解决问题本论文试图解决多人长视频场景下的动作质量评估问题,提出了一个新的数据集LOGO,并设计了一个基于群组注意力机制的方法来处理多人视频场景。
- 关键思路本文的关键思路是设计了一个群组注意力机制,可以有效地处理多人视频场景下的动作质量评估问题。
- 其它亮点本文提出的LOGO数据集包含了200个多人艺术游泳比赛视频,并进行了详细的标注,包括了群组信息和动作过程。本文提出的方法在LOGO数据集上取得了最先进的结果。论文作者还开源了数据集和代码。
- 近期在这个领域的相关研究包括:1.《Multi-Person Action Recognition with Spatial-temporal Attention》;2.《Action Quality Assessment from Global and Local Perspectives》;3.《End-to-end Learning of Action Detection from Frame Glimpses in Videos》等。
沙发等你来抢
去评论
评论
沙发等你来抢