鲍平磊,北京大学心理与认知科学学院研究员,麦戈文脑研究所研究员,北京大学-清华大学生命科学联合中心研究员。实验室致力于高级视觉功能认知的神经机制探索,采用电生理,脑功能成像,微电刺激以及心理物理的方法等多种研究手段对于人和非人灵长类的视觉系统进行多层面的研究,并结合深度学习网络等多种手段构建视觉知觉的数学模型。
鲍教授相关研究的论文链接:
https://www.nature.com/articles/s41586-020-2350-5
2. 引入
神经系统是生物用于接收信息,处理信息的系统。它主要的作用是通过计算处理输入信息,指导生物行动。视觉是动物的基础功能,大部分动物都有很强的视觉能力。据估计,人类大约有1/3的脑区都与视觉有关。近年来,深度神经网络(Deep Neural Network,DNN)技术发展迅猛,其模型结构的灵感也正是来自于生物视觉的计算机制。
在所有视觉任务中,最重要的就是物体识别任务。物体识别对人类是很容易的,只需毫秒级的时间就可以完成。但实际上,物体识别背后有着很复杂的计算机制。根据大英百科全书,生活中常见的物体大约可以被分为3-5万个类别。人类不但可以轻松驾驭如此繁多复杂的物体种类,还可以在各种不同的条件下实现稳定的视觉识别(Invariant object recognition),很少出现错误(如下图所示)。
问题接踵而至:生物视觉系统究竟如何完成这样的任务?如何构建一个人工的系统实现这样的效果?
3. 生物视觉的基本工作原理
大脑的IT区域是一个格外有趣的区域。一般认为,相较于V1,V2等初级视觉皮层对输入视觉刺激的简单处理,IT区域具有更加抽象的视觉编码。已有研究表明,IT区域的损伤会导致特定物体识别障碍,比如将自己的妻子识别为一顶帽子(The Man Who Mistook His Wife for a Hat - Wikipedia)。无法识别脸并不是看不到人脸,患者视力与正常人没有差别,但就是会对人脸产生错认或失认。
早期的物体识别研究以“猫”为研究对象,这些工作为后来机器视觉领域的研究提供了重要的启发。研究者发现猫的初级视觉皮层存在两类方向选择性神经元,对不同朝向的光bar有很强的选择性。如图,猫被记录的特定神经元对竖直的光bar反应强烈,而对横向光bar几乎没有反应。
视觉信息初始输入的时候都是光点,为什么能形成不同的方向选择性呢?David Hubel(1981 Nobel Prize)等人的早期研究认为,如果有多个神经元具有不同的感受野,形成特定的方位排列,并通过汇聚性连接将信息汇总到一个新的神经元,此时新的神经元就可以形成特定的方位选择性,即形成特定的感受野(Receptive field)。这样的模型在后来的电生理实验中也得到了进一步验证。这个实验向我们表明,通过神经元的特定连接,就可以从构建出能够探测特定特征的细胞。
也有一些更为复杂的细胞。这类细胞具有一定的位置不变性,只要在输入图片中具有特定的特征,它们都可以探测到,而与特征所在空间位置关联较弱。通过汇聚性连接的理论,也可以解释这种细胞的存在。
4. 生物视觉的计算模型
与卷积神经网络的兴起
通过刚才两个例子,我们了解到神经元的相互连接可以实现非常有趣的功能。受此启发,1980年Fukushima提出了一个数学结构,被认为是最早的卷积神经网络模型。这个模型采取了汇聚性连接的思想,使得输入信息经过多层神经网络逐步处理,最终实现简单的数字识别任务。但是这个网络所有的连接权重都是人工设计的,不具备更进一步的学习能力。
1989年,LeCun提出了卷积神经网络(Convolutional Neural Network,CNN)。这一模型采取类似的架构,结合梯度反向传播(Back Propagation,BP)的方法,使用数据对模型进行训练。CNN实现了可以从数据中学习手写数字分类,并且做到了不错的精度。
2012年,随着计算机算力的大幅度提升与ImageNet大规模图像数据集的建立,Hinton提出了AlexNet深度学习网络结构,在图像分类任务上实现了划时代的进步。
下面简单介绍CNN的原理。CNN最基本的操作就是卷积操作,而卷积操作依赖于卷积核。卷积核是一个矩阵,也可以被认为是一种特征提取器。将卷积核在图像上滑动,每滑到一个新的位置,就将卷积核与当前对应的局部图片进行卷积,就可以探测图片不同位置的特征。
为什么卷积这一操作有效?因为在物体识别任务中,很多特征会出现在图片不同位置,但是大体上是类似的,即特征具有一定的”平移不变性“。比如两张鸟的图片,其中都会出现鸟喙。虽然两个鸟喙可能在图片不同的位置,但是都可以描述“有鸟出现”这件事情。
CNN每一个卷积层可以有很多不同的卷积核,这样就可以提取不同的特征。提取特征后,再逐层向后传递(汇聚性连接),就可以将特征组合,实现探测更复杂更抽象的特征,最终实现对物体的识别。
最大池化(Max Pooling)是一种精简参数的操作。对于每一个小的局部区域(e.g. 2x2的局部图片),最大池化操作只保留其最大值(也有平均池化,最小池化等方法)。为什么需要做池化操作?因为神经网络中的信息往往存在冗余,对图片下采样往往不会丢失至关重要的信息,而且会使模型训练变得更加轻松。
通过不断交替重复卷积操作与最大池化操作,就获得了一个简单的卷积神经网络。卷积操作与最大池化使得CNN的网络参数远少于全连接网络,更容易训练。CNN网络的整体架构如下图所示。
5. IT区域已有的相关研究
大致讨论了深度学习技术的发展史,我们现在回到神经科学领域开始讨论生物视觉。前面提到了IT区域对特定视觉刺激会做出特定响应,其实IT还有更精细的结构。Kanwisher 1997年的一项研究发现下颞叶存在一个对人脸有特异性响应的区域,称之为FFA区域(Face Fusiform Area)。在这项研究中,被试躺在核磁共振仪器中,测量在特定任务状态下,神经元活动引起的大脑血氧浓度变化。发现人类被试观看人脸面孔的时候,FFA区域对面孔的反应远高于对物体的响应。FFA是最早发现的能够表征特异物体类别的区域。
不久后研究者又发现了IT区域另一个有趣的脑区,PPA区域,它会对房子/景观有较强的反应。除此之外,研究者还发现了对人类身体区域有特异性反应的EBA脑区等。
研究者们还发现,对某一个特定物体类别反应的脑区往往不只有一个,如下图所示。同时,下颞叶还有很大一部分区域还没有被发现有明确的类别选择性。
发现FFA区域对面孔有特异选择性后,研究者们对FFA区域进行了进一步的实验。他们将电极放置在癫痫病人的FFA区域,并对病人施加特定电刺激,观察发生的现象。结果表明,当FFA区域受到电刺激时,病人对于面孔的认知发生了变化,如下图所示。
该实验充分说明了FFA与面孔识别有很强的关系。由于对人体的侵入式电极刺激实验受限较大,实验机会可遇而不可求,所以进一步的研究主要以猕猴作为实验对象。Charlie Gross和Robert Desimone最早在猕猴IT区域发现了面孔神经元,这些神经元对人类面孔和猴类面孔具有很强的选择性响应,如下图所示。
2003年,Doris Tsao等人在猕猴身上开展fMRI实验,也发现了6个面孔选择性脑区。猕猴的面孔选择性脑区和人类不尽相同,但仍然有一定的相似性。
于是更进一步,Tsao将电极插入猕猴的面孔特异性脑区ML,并记录了神经元的响应。如图所示,图中横轴为不同的图片类别,如Faces,Bodies等,纵轴为ML区的不同细胞,红色代表细胞对特定刺激响应强,蓝色代表细胞对特定刺激相应弱。可以发现大约90%的神经元都具有较强的面孔选择性。
而另一个脑区AL有部分神经元对面孔没有选择性响应。在AL的电生理实验中,研究者尝试呈现了面孔的八个不同视角,发现先前不响应的部分神经元,对左右侧脸有较强的选择性响应。
另一个脑区AM对正脸和侧脸都没有表现出显著的选择性。电生理记录表明,AM的神经元主要对特定个体选择性响应。
如下图所示,研究者通过Correlation Matrix的方式,对刚才的数据进行了再次展示。图中的横轴和纵轴各有8个block,代表8个不同的面孔方向。每个block中又有若干个刻度,每个刻度代表一个不同的个体。
考虑矩阵中的每一个小格,定义横轴对应个体为A,面孔方向为a;纵轴对应个体为B,面孔方向为b。每个block对角线上的小格中,横轴与纵轴对应的个体相同。则小格的颜色代表“个体A的面孔以方向a呈现时引发的电生理反应,与个体B的面孔以方向b呈现时引发的电生理反应,所具有相关性的强度“。颜色越深,相关性越强。
从图中我们可以发现,ML/MF区域主要关心面部朝向的一致性(主对角线上block颜色最深),而AL区域主要对侧脸响应,且左右侧脸的响应大致对称。同时,AL区域的Correlation Matrix也存在深色block对角线,说明相同个体会在AL区域引发相似的电生理反应。Block对角线的相似效应在AM区域中体现得更为充分,说明AM区域的神经元主要识别特定个体。
于是,我们可以把目前为止的发现总结为下图:从ML/MF到AL再到AM,大脑对于面孔具有越来越强的视角不变性,即具有在不同的视角下可以识别出同一个个体的能力,逐渐接近实现“面孔识别“这一任务。
6. 深度学习与生物视觉研究的融合
下颞叶不仅有识别人脸的脑区,还有识别bodies,scenes,color的脑区。在深度神经网络出现以前,电生理学家们需要通过语义定义物体。这使得研究者很难用数学的语言准确描述视觉表征的本质。但是深度神经网络的出现,一定程度上解决了这个问题。深度神经网络可以自动学习物体识别任务,并在这个过程中自动提取物体特征,提供一种可能的视觉表征。
下面这篇文章,开辟了用深度神经网络研究生物视觉的领域。这篇文章使用了一个类似AlexNet的HMO架构,在使用图片数据库训练深度学习模型的同时,也将部分图片给猕猴看,并记录其V4和IT脑区神经元电生理响应,评估大脑表征与神经网络表征的相似性。从结构上考虑,深度神经网络应当与生物视觉具有一定的相似性,因为它们都具有多层级结构,都具有感受野,而且有一致的物体识别的计算目标。
在这项研究中,Dicarlo等人首先设计了一个类似于AlexNet的HMO深度神经网络模型,并选取了一系列传统机器学习模型,将这两类模型对物体类别的预测效果和直接使用V4/IT电生理信号预测物体类别的效果比较。当图片变化很小的时候,这些方法都有较好的物体识别表现。但是当图片大小,朝向有较大变化时,深度学习以外的简单模型性能明显变差,而HMO模型和IT神经元表现预测效果仍然不错。
接下来,Dicarlo等人尝试把图片刺激输入到深度学习模型,并提取神经网络的中间表征来预测神经元的电生理信号,以预测精度评估深度神经网络与人脑表征的相似性。实验结果如下图所示:HMO最深的一层对IT电生理响应预测效果最好,而V4区域与HMO中间两层表征更为类似。这一结果不但表明深度神经网络可以很好地解释神经元电生理信号,且说明深度神经网络和生物视觉皮层类似,都存在着层级结构的表征,而且层级结构之间有较好的相互对应。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢