论文链接:
https://openreview.net/pdf?id=MQlMIrm3Hv5
项目链接:
https://github.com/Newbeeyoung/Video-Corruption-Robustness
神经网络和大规模数据集推动了图像和视频分析领域巨大的发展,但是现在大部分数据集只考虑不加噪声和扰动的干净数据进行模型评估。在模型的实际部署中,我们会遇到各种各样的扰动,比如天气变化,镜头的移动,系统的错误或数据流失。
计算机视觉模型在这种环境中面对扰动的可维持性即是对常见噪声和扰动的鲁棒性(Common Corruption Robustness)。在单个图像相关的计算机视觉任务中,这些扰动会造成模型表现很大程度地恶化。相应地在视频分析中,时序信息或许会提高模型对这些自然生成扰动的鲁棒性,但是还没有人做过相关的系统性研究。
所以我们选择视频识别作为视频分析领域的突破口,自然而然地提出几个研究问题:
1)现在的视频分类模型大量使用时序信息,是否对模型鲁棒性有帮助?
2)模型是否对带时序信息的扰动(Temporal Corruption)具有鲁棒性?比如在视频传输中丢包造成的扰动会在后续的视频帧造成更大的扰动。
3)模型的鲁棒性(Robustness),泛化性(Generalization)和效率(Efficiency)是否有冲突?
针对以上几个问题,新加坡南洋理工大学ROSE实验室提出视频分类(Video Classification)鲁棒性的新基准。这个基准包括两个数据集Mini Kinetics-C和Mini SSV2-C,并且从空间和时间域(Spatial Temporal Domain)考虑不同的自然产生的噪声和扰动。
这两个数据集是基于广泛应用的视频分类数据集 Kinetics 和 Something-Something V2。前者更依赖于单个帧的空间信息,后者则更依赖与连续帧中包含的时序信息。
在此基础上,我们设计了12种不同的噪声和扰动并添加在数据集验证集的原有视频上。需要注意的是,在评估模型鲁棒性时,我们通常使用原有的干净数据集做训练,并在添加噪声和扰动的验证集上做评估。在使用我们设计的基准评价最新发表的基于CNN和Transformer的视频分类模型后,我们发现了几个趋势:
1)基于Transformer的模型比基于CNN的视频分类模型更鲁棒
2)模型的鲁棒性和泛化性正相关,但是和模型的效率相冲突。效率包括模型的大小和需要计算的次数。
3)模型对带时序信息的扰动(如动态模糊,比特错误等)更加鲁棒,而对仅带空间信息的扰动(Spatial Corruption)(如散射噪声,雨滴等)不够鲁棒
4)在训练集中添加随机噪声不能提高模型鲁棒性。虽然这种方法在单个图像相关的任务中比较有效。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢