- 简介我们提出了一种新颖的方法,用于长时间未修剪的视频的动作分割任务,基于解决最优传输问题。通过将时间一致性先验编码到Gromov-Wasserstein问题中,我们能够从视频帧和动作类之间的嘈杂的亲和/匹配成本矩阵中解码出一个时间上一致的分割。与以前的方法不同,我们的方法不需要知道视频的动作顺序来实现时间上的一致性。此外,我们的(fused) Gromov-Wasserstein问题可以使用几次投影镜面下降的迭代在GPU上高效地求解。我们在无监督学习环境中展示了我们方法的有效性,其中我们的方法用于为自我训练生成伪标签。我们在Breakfast、50-Salads、YouTube Instructions和Desktop Assembly数据集上评估了我们的分割方法和无监督学习流水线,为无监督视频动作分割任务提供了最先进的结果。
-
- 图表
- 解决问题本论文旨在解决长视频动作分割任务中的问题,通过解决最优传输问题来实现对视频帧和动作类别之间的噪声亲和/匹配成本矩阵进行时间一致性分割。
- 关键思路通过将时间一致性先验编码到Gromov-Wasserstein问题中,实现从噪声亲和/匹配成本矩阵中解码出时间一致性分割。与以往的方法不同,我们的方法不需要知道视频中的动作顺序即可实现时间一致性。
- 其它亮点论文使用了几个数据集进行实验,包括Breakfast、50-Salads、YouTube Instructions和Desktop Assembly。在无监督学习的情况下,论文使用该方法生成伪标签进行自我训练,并在实验中取得了最先进的结果。此外,该方法可以在GPU上高效地解决融合的Gromov-Wasserstein问题。
- 相关研究包括:1. Beyond Short Snippets: Deep Networks for Video Classification(CVPR2015);2. Unsupervised Learning of Video Representations using LSTMs(ICML2015);3. Temporal Segment Networks: Towards Good Practices for Deep Action Recognition(ECCV2016)等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流