摘要
近年来,深度学习在计算机视觉各个领域中的应用成效显著,新的深度学习方法和深度神经网络模型不断涌现,算法性能被不断刷新。本文着眼于2016年以来的一些典型网络和模型,对基于深度学习的计算机视觉研究新进展进行综述。首先总结了针对图像分类的主流深度神经网络模型,包括标准模型及轻量化模型等;然后总结了针对不同计算机视觉领域的主流方法和模型,包括目标检测、图像分割和图像超分辨率等;最后总结了深度神经网络搜索方法。
关键词
深度学习; 目标检测; 图像分割; 超分辨率; 计算机视觉
引 言
近20年来,随着深度学习技术的迅猛发展和图形处理器(Graphics processing unit, GPU)等硬件计算设备的广泛普及,深度学习技术几乎已经应用到计算机视觉的各个领域,如目标检测、图像分割、超分辨率重建及人脸识别等,并在图像搜索、自动驾驶、用户行为分析、文字识别、虚拟现实和激光雷达等产品中具有不可估量的商业价值和广阔的应用前景[1]。基于深度学习技术的计算机视觉同时可以对其他学科领域产生深远的影响,如在计算机图形学中的动画仿真和实时渲染技术、材料领域的显微图像分析技术、医学图像分析处理技术、实时评估师生课堂表现和考场行为的智慧教育、分析运动员比赛表现和技术统计的智能系统等。
深度学习早在1986年就被Dechter[2]引入机器学习领域,2000年Aizenberg等[3]又在机器学习领域引入了人工神经网络(Artificial neural network,ANN)[4]。深度学习方法由多层组成,用于学习多层次抽象的数据特征[5]。在人工神经网络领域中,深度学习又被称为分层学习[6],是一种通过在不同计算阶段精确地分配分数来调节网络激活的技术[4]。深度学习常常用多种抽象结构来学习复杂的映射关系,如2009年蒙特利尔大学的Bengio教授提出的带隐藏层的ANN[7]等。深度学习技术可以被视作一种表征学习,是机器学习的一个分支。
2005年多伦多大学的Hinton教授团队试图用图模型模拟人类的大脑[8],在文献[9]中提出了一种逐层贪婪算法来预训练深度信念网,克服了深度网络难以训练的弊端,并用自编码器降低数据维度[10],开启了深度学习的热潮,使其被广泛应用在语音识别、计算机视觉和自然语言处理等领域。2011—2012年,深度学习技术在语音识别领域中最先取得重大突破,Dahl团队[11]和Hinton团队[12]先后将识别错误率降至20%~30%。在2012年的ImageNet大规模视觉识别挑战竞赛(ImageNet large scale visual recognition challenge,ILSVRC)中,Hinton的学生提出的AlexNet[13]以超过第二名准确率10%的巨大优势夺得冠军,深度学习正式进入了爆发期。近年来各大互联网科技公司,如Google、Microsoft、Facebook、百度、阿里巴巴和腾讯等也争相投入大规模深度学习系统的研发中。
笔者在2016年发表“深度卷积神经网络在计算机视觉中的应用研究综述”[1],总结了2016年之前深度卷积神经网络在计算机视觉中的研究成果。本文在文献[1]的基础上,重点综述2016年以后基于深度学习的计算机视觉研究新进展。但为了表述的完整和逻辑的严谨,本文与文献[1]内容有少量重合。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢