Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy

2024年05月02日
  • 简介
    动作识别已成为计算机视觉中热门的研究课题之一。基于卷积网络和自注意机制(如Transformer)的各种方法已经被用来解决动作识别任务中的空间和时间维度问题,并取得了竞争性的表现。然而,这些方法缺乏保证模型关注的动作主体正确性的保证,即如何确保动作识别模型关注适当的动作主体以做出合理的动作预测。本文提出了一种多视图注意力一致性方法,使用有向Gromov-Wasserstein差异计算来自动作视频不同视图的两个注意力之间的相似度。此外,我们的方法应用了神经辐射场的思想,在单视图数据集上训练时隐式地呈现来自新视图的特征。因此,本文的贡献有三个方面。首先,我们引入了多视图注意力一致性来解决动作识别中合理预测的问题。其次,我们定义了一种新的度量方法,用于计算多视图一致的注意力,使用有向Gromov-Wasserstein差异。第三,我们基于视频Transformer和神经辐射场构建了一个动作识别模型。与最近的动作识别方法相比,所提出的方法在三个大型数据集,即Jester、Something-Something V2和Kinetics-400上取得了最新的结果。
  • 图表
  • 解决问题
    该论文试图解决在动作识别任务中,如何确保模型关注到正确的动作主体以进行合理的预测的问题。
  • 关键思路
    该论文提出了一种多视角注意一致性方法,使用有向Gromov-Wasserstein差异计算两个来自动作视频两个不同视角的注意力之间的相似度。此外,该方法还应用了神经辐射场的思想,在单视角数据集上训练时隐式渲染来自新视角的特征。
  • 其它亮点
    该论文的亮点包括提出了多视角注意一致性方法,定义了一个新的度量标准来衡量多视角一致的注意力,并构建了一个基于视频Transformer和神经辐射场的动作识别模型。该方法在三个大规模数据集(Jester,Something-Something V2和Kinetics-400)上取得了最先进的结果。
  • 相关研究
    最近的相关研究包括基于卷积网络和自注意力机制的方法,以解决动作识别任务中的空间和时间维度问题,并取得了竞争性能。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论