- 简介视频重复计数是指推断视频中重复动作或运动的次数。我们提出了一种基于样本的方法,该方法发现目标视频中重复的视频样本之间的视觉对应关系。我们提出的“每个镜头都重要”(ESCounts)模型是一种基于注意力的编码器-解码器,它可以对长度不同的视频进行编码,同时还可以对来自相同和不同视频的样本进行编码。在训练中,ESCounts通过回归视频中与样本高度对应的位置来进行学习。同时,我们的方法学习到了一种潜在的编码,用于表示通用的重复运动,我们可以用它来进行无样本推理。在常用数据集(RepCount、Countix和UCFRep)上进行的广泛实验表明,ESCounts在所有三个数据集上都获得了最先进的性能。在RepCount上,ESCounts将误差从0.39降低到0.56,将平均绝对误差从0.38降低到0.21。详细的消融实验进一步证明了我们方法的有效性。
- 图表
- 解决问题本文旨在解决视频重复计数的问题,即推断视频中重复动作或运动的次数。这是否是一个新问题?
- 关键思路本文提出了一种基于示例的方法,通过发现目标视频中示例的视觉对应关系来计算视频重复次数。提出了一种名为ESCounts的基于注意力机制的编码器-解码器模型,可以对不同长度的视频进行编码,同时与相同和不同视频的示例进行编码。在训练中,ESCounts回归到视频内与示例高度对应的位置。同时,本方法学习了一种潜在的编码方式,用于表示常见的重复运动,可以进行无示例的零样本推断。
- 其它亮点本文的实验结果表明,在常用数据集(RepCount、Countix和UCFRep)上,ESCounts在所有三个数据集上均获得了最先进的性能。在RepCount上,ESCounts将误差从0.39降低到0.56,将平均绝对误差从0.38降低到0.21。同时,本文还进行了详细的消融实验,证明了本方法的有效性。
- 近年来,在视频重复计数领域,还有一些相关的研究,如《Video-Based Repetition Counting: A Review》、《Repetition Counting with a Combined CNN-RNN Approach》等。
沙发等你来抢
去评论
评论
沙发等你来抢