3D CNNs with Adaptive Temporal Feature Resolutions 论文链接:https://arxiv.org/abs/2011.08652 可插入到任何现有的3D CNN网络中,可将模型的GFLOPs大幅降低,并提高准确性。如让SlowFast、X3D-XL性能提升!作者单位:波恩大学, 鲁汶大学, 博世, 斯坦福大学, ETH Zurich(Luc Van Gool等)
尽管先进的3D卷积神经网络(CNN)在动作识别数据集上取得了很好的结果,但它们在计算上非常昂贵,并且需要许多GFLOP。尽管可以通过降低网络内的时间特征分辨率来降低3D CNN的GFLOP,但没有适合所有输入clips的最佳设置。因此,在这项工作中,我们引入了可微的相似性引导采样(SGS)模块,该模块可以插入任何现有的3D CNN体系结构中。 SGS通过学习时间特征的相似性并将相似的特征分组在一起,从而为3D CNN提供支持。结果,时间特征分辨率不再是静态的,而是针对每个输入视频clip而变化。通过将SGS集成为当前3D CNN中的附加层,我们可以将它们转换为具有自适应时间特征分辨率(ATFR)的高效得多的3D CNN。我们的评估表明,所提出的模块通过将计算成本(GFLOP)降低了一半而改善了最新技术,同时还保留甚至提高了准确性。我们通过将其添加到各种数据集(例如Kinetics-600,Kinetics-400,mini-Kinetics,Something-Something V2,UCF101和HMDB51)上的多个最新3D CNN来评估模块
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢