- 简介我们提出了一种新颖的方法来处理长时间未修剪视频的动作分割任务,该方法基于解决最优传输问题。通过将时间一致性先验编码到Gromov-Wasserstein问题中,我们能够从视频帧和动作类之间的噪声亲和/匹配成本矩阵中解码出一个时间一致的分割。与以前的方法不同,我们的方法不需要知道视频中动作的顺序才能达到时间一致性。此外,我们得到的(融合的)Gromov-Wasserstein问题可以使用几次投影镜像下降在GPU上高效地解决。我们在无监督学习设置下展示了我们的方法的有效性,其中我们的方法用于生成自我训练的伪标签。我们在Breakfast、50-Salads、YouTube Instructions和Desktop Assembly数据集上评估了我们的分割方法和无监督学习流程,在无监督视频动作分割任务中取得了最先进的结果。
-
- 图表
- 解决问题本文旨在解决长时间未剪辑视频中的动作分割任务,并通过解决最优传输问题来实现。该任务的关键在于实现时间上的一致性。
- 关键思路通过将时间一致性先验编码到Gromov-Wasserstein问题中,可以从视频帧和动作类别之间的噪声亲和/匹配成本矩阵中解码出时间一致性的分割。与以前的方法不同,本文的方法不需要知道视频的动作顺序才能实现时间上的一致性。
- 其它亮点本文的方法在无监督学习环境中表现出色,可以用于生成自训练的伪标签。作者在Breakfast、50-Salads、YouTube Instructions和Desktop Assembly数据集上进行了实验,并取得了最先进的结果。本文的方法可以在GPU上高效地求解,使用了几次迭代的投影镜面下降。作者还开源了代码。
- 在这个领域中,最近的相关研究包括:Unsupervised Action Segmentation with Implicit Self-Training和Unsupervised Video Action Segmentation Using Tree Structured Graph Cut。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流