自2012年深度学习崛起以来,这项技术已被应用到计算机视觉、NLP、推荐等各领域,推动了技术发展,创造了巨大的商业价值。同时,深度学习的算法和网络结构在这期间也在不断发展,但不管怎样,它们都遵循深度学习的基础理论。

温故而知新,如今回顾深度学习的基本原理,依然对我们理解它从何发展而来,为什么能发挥作用至关重要,也对我们在下个十年推进深度学习有指导性意义。
因此,本文将重点回顾深度学习相关的基础理论知识。首先介绍深度学习与人工智能的相关概念,然后从感知机等初等神经网络结构出发,阐述深度学习模型的前向传播和反向传播计算理论。同时系统性地介绍常见的前馈神经网络和卷积神经网络,以及深度学习实践中模型常用的调优方法,包括多种权重学习的最优化算法和模型过拟合的调整方法。

1

深度学习与人工智能

 

深度学习(Deep Learning, DL)作为人工智能的一个重要子分支,说到深度学习,不得不提人工智能(Artificial Intelligence, AI)和与之密切相关的机器学习(Machine Learning, ML)。刚接触人工智能、机器学习和深度学习的读者可能比较容易混淆三者之间的关系,它们之间的相互包含关系如图1-1所示。机器学习是一种实现人工智能的方法,深度学习是一种实现机器学习的技术。下面简要介绍相关概念。

 

图1-1 人工智能、机器学习、深度学习的包含关系

 

人工智能是在1956年由约翰·麦卡锡提出的概念,研究用于模拟、延伸和扩展人类智能的科学技术,属于现代计算机科学的一个重要分支。人工智能试图让计算机拥有人类的智慧,即具备理解语言、学习、记忆、推理、决策等诸多能力。人工智能延伸出了很多子领域,包括机器人、语音识别、图像识别、自然语言处理和专家系统等。

 

机器学习是实现人工智能的重要技术,采用算法解析观测到的大量数据,从中学习出更具一般性的规律,然后对真实世界中的事件作出预测。典型的机器学习算法包括决策树、随机森林、逻辑回归、支持向量机、朴素贝叶斯等。机器学习领域有一个经典共识,即数据和特征决定了机器学习性能的上限,而模型和算法只是不断朝着这个上限逼近。

 

而在模型和算法设计过程中,传统机器学习需要投入大量的人力在特征工程上,而理想的状态是让机器帮助我们自动找出应该使用的特征空间,无须人参与。为此,人们希望设计的机器学习算法能够自动学习特征和任务之间的关联,还能从简单特征中提取复杂特征,深度学习就是满足这个特点的机器学习算法。

 

深度学习的概念源于人工神经网络的研究,主要通过组合和抽取低层特征,形成更加抽象的高层表示属性类别或特征,以发现数据的分布特征表示。

 

2

感知机与神经网络

 

2.1 单层感知机

 

神经网络的概念源于生命科学中的神经系统。在生命科学中,神经元是动物脑神经系统中最基本的单元,数百亿的神经元相互连接,组成复杂的神经系统,用来完成学习、认知和体内对生理功能活动的调节。

 

图1-2 生物神经单元与感知机

 

如图1-2所示,神经细胞按照功能大致可分为树突、细胞体和轴突。按照对逻辑电路的理解,每个神经细胞可被视为一个只有兴奋或者抑制两种状态的器件,当某个神经元从其他神经细胞接收到的信号强度超过某个阈值时,细胞体就会兴奋,产生电脉冲并传递到其他神经元。

 

 

​其他人都在看
欢迎体验OneFlow v0.7.0:https://github.com/Oneflow-Inc/oneflow

内容中包含的图片若涉及版权问题,请及时与我们联系删除