图片

摄像设备在生活中的普及, 使得视频数据快速增长, 这些数据中蕴含丰富的信息. 早期, 研究人员基于传 统的计算机视觉技术开发视频分析系统, 用于提取并分析视频数据. 近年来, 深度学习技术在人脸识别等领域取 得了突破性进展, 基于深度学习的新型视频分析系统不断涌现. 从应用、技术、系统等角度, 综述了新型视频分 析系统的研究进展. 首先, 回顾了视频分析系统的发展历史, 指出了新型视频分析系统与传统视频分析系统的区 别; 其次, 分析了新型视频分析系统在计算和存储两方面所面临的挑战, 从视频数据的组织分布和视频分析的应 用需求两方面探讨了新型视频分析系统的影响因素; 再次, 将新型视频分析系统划分为针对计算优化的系统和针 对存储优化的系统两大类, 选取其中典型的代表并介绍其核心设计理念; 最后, 从多个维度对比和分析了新型视 频分析系统, 指出了这些系统当前存在的问题, 并据此展望了新型视频分析系统未来的研究和发展方向.

http://www.jos.org.cn/jos/article/abstract/6631

概述

随着大量摄像机部署在公共场所甚至个人家庭中, 这些设备产生的视频数据迅速增多. 调查显示: 2016 年产生的视频数据占所有互联网流量的 73%以上[1]; 一个中等规模的城市, 仅一天就能产生 PB 级数据量的视 频[2]. 这些视频中蕴含的丰富信息可以帮助解决现实生活中的一些难题, 例如: 道路和交叉路口的视频有助 于及时检测拥堵、违规和事故[3], 并为交通规划决策提供信息[4,5]; 室内的视频有利于检测异常情况并及时预 警[6]等. 但是, 如果依靠人工观看视频的方式提取这些信息, 不仅耗时耗力且结果误差较大[7]. 

面对视频处理需求, 如何自动、高效地从视频数据中提取相应信息, 是视频分析系统的关键. 早在 20 世 纪 90 年代, 国内外的很多公司, 包括 IBM、Virage 等, 都开发了视频分析系统进行图像检索与对象查询. 本 文将这些系统称为传统视频分析系统. 但是, 随着视频数据的快速增长和视频分析应用需求的增加, 这些系 统的不足逐渐显现, 主要表现在这些系统基于传统的计算机视觉的方法进行对象查询, 而这些对象查询所使 用的特征需要人为地选择和提取. 这是一种半自动的实现方式, 这种实现方式导致系统的准确度低、查询对 象有限、识别能力有限. 在之后的一段时间中, 视频分析系统的发展停滞不前. 直到 2012 年, 在 ImageNet 图 像分类比赛上, 深度神经网络 AlexNet[8]取得了当时最好的结果, 这为视频分析系统提供了新的方向. 通过使 用深度神经网络, 系统可以自动提取并学习对象丰富的特征, 并推理得到准确的结果. 此后, 深度神经网络 (deep neural network, DNN)的种类逐渐增多, 功能逐渐多样化. 更进一步地, 因深度神经网络的兴起, 以深度 神经网络为本质的深度学习方法也逐步在人工智能的多个领域中得到广泛应用. 时至今日, 国内外研究人员 仍致力于使用深度学习方法来解决现实生活中的一些难题. 随着深度学习日益受到广泛关注, 近年来出现了 很多基于深度学习的视频分析系统, 本文将这类系统称为新型视频分析系统. 

然而, 在视频数据不断增长和深度神经网络层数逐渐增多的趋势下, 新型视频分析系统在计算和数据存 储过程中都面临着挑战, 例如, 系统如何快速甚至实时地分析不断到达的数据、系统如何压缩数据以节省存 储空间等. 面对这些挑战, 研究者们通过对视频数据组织分布的观察以及对视频分析应用需求的分析, 逐步 探索了不同的优化方向, 并由此开发了相关的原型系统. 本文对这些系统进行了总结, 并将其归纳为两类系 统: 针对计算优化的系统和针对存储优化的系统. 对于每一类系统, 本文介绍了其设计思想, 并从多个方面 对其进行了总结和分析. 

本文第 1 节回顾视频分析系统的发展历程. 第 2 节阐述新型视频分析系统面对的挑战及其影响因素. 第 3 节分类介绍典型的新型视频分析系统. 第 4 节对比总结这些系统. 第 5 节探讨未来值得关注的研究方向. 第 6 节总结全文.