TDN: Temporal Difference Networks for Efficient Action Recognition 论文链接:https://arxiv.org/abs/2012.10071 代码链接:https://github.com/MCG-NJU/TDN 作者单位:南京大学(王利民和武港山团队)

表现SOTA!性能优于TEINet、TSM等网络,代码即将开源! 时序建模对于视频中的行为识别仍然具有挑战性。为了缓解这个问题,本文提出了一种新的视频体系结构,称为时序差分网络(TDN,Temporal Difference Network),重点是捕获多尺度时间信息以进行有效的行为识别。我们的TDN的核心是通过显式地利用时间差算子来设计有效的时间模块(TDM),并系统地评估其对短期和长期运动建模的影响。为了完全捕获整个视频中的时间信息,我们的TDN建立了两级差异建模范例。具体来说,对于局部运动建模,连续帧上的时间差用于为2D CNN提供更精细的运动模式,而对于全局运动建模,跨段的时间差被并入以捕获用于运动特征激励的远程结构。 TDN提供了一个简单且原则性的时间建模框架,并且可以使用现有的CNN实例化,而所需的额外计算成本很小。我们的TDN在Something-Something V1和V2数据集上展现了最新的技术水平,与Kinetics-400数据集上的最佳性能相提并论。此外,我们进行了深入的消融研究并绘制了TDN的可视化结果,希望能对时差操作提供深入的分析。

内容中包含的图片若涉及版权问题,请及时与我们联系删除