Exploring Explainability in Video Action Recognition

2024年04月13日
  • 简介
    图像分类和视频动作识别可能是计算机视觉中最基础的两个任务。因此,解释训练好的深度神经网络的内部工作机制至关重要。虽然许多努力集中于解释训练好的深度神经网络在图像分类中的决策,但在其时间版本——视频动作识别领域的研究却很少。在这项工作中,我们深入研究了这个问题。我们首先重新审视了Grad-CAM,它是一种流行的图像分类特征归因方法,以及其对视频动作识别任务的扩展,并检查了该方法的局限性。为了解决这些问题,我们通过在图像分类任务的TCAV基础上构建,引入了Video-TCAV,旨在量化视频动作识别模型决策过程中特定概念的重要性。由于可扩展的概念生成仍然是一个开放性问题,我们提出了一种机器辅助方法来生成与视频动作识别相关的空间和时空概念,以测试Video-TCAV。然后,我们通过展示动态时空概念优于琐碎的空间概念,来证明时变概念的重要性。最后,我们介绍了一个框架,用于研究动作识别中的假设并对其进行定量测试,从而推进深度神经网络在视频动作识别中的可解释性研究。
  • 图表
  • 解决问题
    本篇论文旨在解决视频动作识别中深度神经网络的可解释性问题,并提出了一种新的方法Video-TCAV来量化特定概念在决策过程中的重要性。
  • 关键思路
    论文通过扩展Grad-CAM方法和建立TCAV方法的基础上,提出了Video-TCAV方法,用于量化视频动作识别模型中特定概念的重要性,并且使用机器辅助的方式生成相关的空间和时空概念。
  • 其它亮点
    论文提出的Video-TCAV方法能够帮助研究人员深入探究动作识别模型的决策过程,实验结果表明动态时空概念比平凡的空间概念更为重要,论文还提供了开源代码。
  • 相关研究
    近期的相关研究包括使用可解释性方法来解释视频动作识别模型的决策过程,如Grad-CAM,以及使用TCAV方法来解释图像分类模型的决策过程。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论