本文是集智俱乐部主办的NeuroAI(认知智能)读书会第一讲的总结。这一期期读书会主题是:“殊途同归:生物视觉与人工视觉”,报告人是来自北京大学的鲍平磊研究员。鲍教授在这一期读书会中,深入浅出地为大家介绍了机器视觉与生物视觉领域的相关研究进展,并介绍了自己在这个领域完成的一项重要研究。

1. 报告人:

鲍平磊,北京大学心理与认知科学学院研究员,麦戈文脑研究所研究员,北京大学-清华大学生命科学联合中心研究员。实验室致力于高级视觉功能认知的神经机制探索,采用电生理,脑功能成像,微电刺激以及心理物理的方法等多种研究手段对于人和非人灵长类的视觉系统进行多层面的研究,并结合深度学习网络等多种手段构建视觉知觉的数学模型。

鲍教授相关研究的论文链接:https://www.nature.com/articles/s41586-020-2350-5

鲍教授相关研究的论文解读:https://mp.weixin.qq.com/s/5MExkY-2JwrDHcoV1vcDXQ

2. 引入

视觉是生物极为重要的功能,其中物体识别是生物视觉最重要的任务之一。生物大脑可以高效稳定地实现物体识别,而传统机器学习模型很难做到。近年来,深度神经网络快速发展,在物体识别任务上实现了接近人类的性能表现。同时,深度神经网络模型如卷积神经网络,也被发现可以很好地解释大脑视觉识别任务中的电生理信号,为生物视觉机制,尤其是下颞叶区域的研究带来了进一步的启发。

神经系统是生物用于接收信息,处理信息的系统。它主要的作用是通过计算处理输入信息,指导生物行动。视觉是动物的基础功能,大部分动物都有很强的视觉能力。据估计,人类大约有1/3的脑区都与视觉有关。近年来,深度神经网络(Deep Neural Network,DNN)技术发展迅猛,其模型结构的灵感也正是来自于生物视觉的计算机制。

在所有视觉任务中,最重要的就是物体识别任务。物体识别对人类是很容易的,只需毫秒级的时间就可以完成。但实际上,物体识别背后有着很复杂的计算机制。根据大英百科全书,生活中常见的物体大约可以被分为3-5万个类别。人类不但可以轻松驾驭如此繁多复杂的物体种类,还可以在各种不同的条件下实现稳定的视觉识别(Invariant object recognition),很少出现错误(如下图所示)。

问题接踵而至:生物视觉系统究竟如何完成这样的任务?如何构建一个人工地系统实现这样的效果?

3. 生物视觉的基本工作原理

首先我们要先了解生物视觉的工作机制。在生物视觉信息处理机制方面,目前一个主流的观点是双流假说。双流假说认为大脑中存在两条通路:腹侧视觉流(Ventral Stream)与背侧视觉流(Dorsal Stream)。其中前者主要负责物体识别任务,也被称为“What 通路”;后者主要负责编码空间位置信息,也被称为”Where 通路”。在这次读书会中,我们探讨物体识别任务,因此主要考虑腹侧视觉流。腹侧视觉流起始于V1脑区,经过V2脑区和V4脑区到达下颞叶脑区(Inferior Temporal,IT)。腹侧视觉流的大致结构如下图所示。

大脑的IT区域是一个格外有趣的区域。一般认为,相较于V1,V2等初级视觉皮层对输入视觉刺激的简单处理,IT区域具有更加抽象的视觉编码。已有研究表明,IT区域的损伤会导致特定物体识别障碍,比如将自己的妻子识别为一顶帽子(The Man Who Mistook His Wife for a Hat - Wikipedia)。无法识别脸并不是看不到人脸,患者视力与正常人没有差别,但就是会对人脸产生错认或失认。

早期的物体识别研究以“猫”为研究对象,这些工作为后来机器视觉领域的研究提供了重要的启发。研究者发现猫的初级视觉皮层存在两类方向选择性神经元,对不同朝向的光bar有很强的选择性。如图,猫被记录的特定神经元对竖直的光bar反应强烈,而对横向光bar几乎没有反应。

视觉信息初始输入的时候都是光点,为什么能形成不同的方向选择性呢?David Hubel(1981 Nobel Prize)等人的早期研究认为,如果有多个神经元具有不同的感受野,形成特定的方位排列,并通过汇聚性连接将信息汇总到一个新的神经元,此时新的神经元就可以形成特定的方位选择性,即形成特定的感受野(Receptive field)。这样的模型在后来的电生理实验中也得到了进一步验证。这个实验向我们表明,通过神经元的特定连接,就可以从构建出能够探测特定特征的细胞。

也有一些更为复杂的细胞。这类细胞具有一定的位置不变性,只要在输入图片中具有特定的特征,它们都可以探测到,而与特征所在空间位置关联较弱。通过汇聚性连接的理论,也可以解释这种细胞的存在。

4. 生物视觉的计算模型与卷积神经网络的兴起

通过刚才两个例子,我们了解到神经元的相互连接可以实现非常有趣的功能。受此启发,1980年Fukushima提出了一个数学结构,被认为是最早的卷积神经网络模型。这个模型采取了汇聚性连接的思想,使得输入信息经过多层神经网络逐步处理,最终实现简单的数字识别任务。但是这个网络所有的连接权重都是人工设计的,不具备更进一步的学习能力。

1989年,LeCun提出了卷积神经网络(Convolutional Neural Network,CNN)。这一模型采取类似的架构,结合梯度反向传播(Back Propagation,BP)的方法,使用数据对模型进行训练。CNN实现了可以从数据中学习手写数字分类,并且做到了不错的精度。

2012年,随着计算机算力的大幅度提升与ImageNet大规模图像数据集的建立,Hinton提出了AlexNet深度学习网络结构,在图像分类任务上实现了划时代的进步。

下面简单介绍CNN的原理。CNN最基本的操作就是卷积操作,而卷积操作依赖于卷积核。卷积核是一个矩阵,也可以被认为是一种特征提取器。将卷积核在图像上滑动,每滑到一个新的位置,就将卷积核与当前对应的局部图片进行卷积,就可以探测图片不同位置的特征。

为什么卷积这一操作有效?因为在物体识别任务中,很多特征会出现在图片不同位置,但是大体上是类似的,即特征具有一定的”平移不变性“。比如两张鸟的图片,其中都会出现鸟喙。虽然两个鸟喙可能在图片不同的位置,但是都可以描述“有鸟出现”这件事情。

CNN每一个卷积层可以有很多不同的卷积核,这样就可以提取不同的特征。提取特征后,再逐层向后传递(汇聚性连接),就可以将特征组合,实现探测更复杂更抽象的特征,最终实现对物体的识别。

最大池化(Max Pooling)是一种精简参数的操作。对于每一个小的局部区域(e.g. 2x2的局部图片),最大池化操作只保留其最大值(也有平均池化,最小池化等方法)。为什么需要做池化操作?因为神经网络中的信息往往存在冗余,对图片下采样往往不会丢失至关重要的信息,而且会使模型训练变得更加轻松。

通过不断交替重复卷积操作与最大池化操作,就获得了一个简单的卷积神经网络。卷积操作与最大池化使得CNN的网络参数远少于全连接网络,更容易训练。CNN网络的整体架构如下图所示。

5. IT区域已有的相关研究

大致讨论了深度学习技术的发展史,我们现在回到神经科学领域开始讨论生物视觉。前面提到了IT区域对特定视觉刺激会做出特定响应,其实IT还有更精细的结构。Kanwisher 1997年的一项研究发现下颞叶存在一个对人脸有特异性响应的区域,称之为FFA区域(Face Fusiform Area)。在这项研究中,被试躺在核磁共振仪器中,测量在特定任务状态下,神经元活动引起的大脑血氧浓度变化。发现人类被试观看人脸面孔的时候,FFA区域对面孔的反应远高于对物体的响应。FFA是最早发现的能够表征特异物体类别的区域。

不久后研究者又发现了IT区域另一个有趣的脑区,PPA区域,它会对房子/景观有较强的反应。除此之外,研究者还发现了对人类身体区域有特异性反应的EBA脑区等。

研究者们还发现,对某一个特定物体类别反应的脑区往往不只有一个,如下图所示。同时,下颞叶还有很大一部分区域还没有被发现有明确的类别选择性。

发现FFA区域对面孔有特异选择性后,研究者们对FFA区域进行了进一步的实验。他们将电极放置在癫痫病人的FFA区域,并对病人施加特定电刺激,观察发生的现象。结果表明,当FFA区域受到电刺激时,病人对于面孔的认知发生了变化,如下图所示。

视频参考Nancy Kanwisher教授的讲座:5. Cognitive Neuroscience Methods II - YouTube(1:05:44 - 1:11:51)

该实验充分说明了FFA与面孔识别有很强的关系。由于对人体的侵入式电极刺激实验受限较大,实验机会可遇而不可求,所以进一步的研究主要以猕猴作为实验对象。Charlie Gross和Robert Desimone最早在猕猴IT区域发现了面孔神经元,这些神经元对人类面孔和猴类面孔具有很强的选择性响应,如下图所示。

2003年,Doris Tsao等人在猕猴身上开展fMRI实验,也发现了6个面孔选择性脑区。猕猴的面孔选择性脑区和人类不尽相同,但仍然有一定的相似性。

于是更进一步,Tsao将电极插入猕猴的面孔特异性脑区ML,并记录了神经元的响应。如图所示,图中横轴为不同的图片类别,如Faces,Bodies等,纵轴为ML区的不同细胞,红色代表细胞对特定刺激响应强,蓝色代表细胞对特定刺激相应弱。可以发现大约90%的神经元都具有较强的面孔选择性。

而另一个脑区AL有部分神经元对面孔没有选择性响应。在AL的电生理实验中,研究者尝试呈现了面孔的八个不同视角,发现先前不响应的部分神经元,对左右侧脸有较强的选择性响应。

另一个脑区AM对正脸和侧脸都没有表现出显著的选择性。电生理记录表明,AM的神经元主要对特定个体选择性响应。

如下图所示,研究者通过Correlation Matrix的方式,对刚才的数据进行了再次展示。图中的横轴和纵轴各有8个block,代表8个不同的面孔方向。每个block中又有若干个刻度,每个刻度代表一个不同的个体。

考虑矩阵中的每一个小格,定义横轴对应个体为A,面孔方向为a;纵轴对应个体为B,面孔方向为b。每个block对角线上的小格中,横轴与纵轴对应的个体相同。则小格的颜色代表“个体A的面孔以方向a呈现时引发的电生理反应,与个体B的面孔以方向b呈现时引发的电生理反应,所具有相关性的强度“。颜色越深,相关性越强。

从图中我们可以发现,ML/MF区域主要关心面部朝向的一致性(主对角线上block颜色最深),而AL区域主要对侧脸响应,且左右侧脸的响应大致对称。同时,AL区域的Correlation Matrix也存在深色block对角线,说明相同个体会在AL区域引发相似的电生理反应。Block对角线的相似效应在AM区域中体现得更为充分,说明AM区域的神经元主要识别特定个体。

于是,我们可以把目前为止的发现总结为下图:从ML/MF到AL再到AM,大脑对于面孔具有越来越强的视角不变性,即具有在不同的视角下可以识别出同一个个体的能力,逐渐接近实现“面孔识别“这一任务。

6. 深度学习与生物视觉研究的融合

下颞叶不仅有识别人脸的脑区,还有识别bodies,scenes,color的脑区。在深度神经网络出现以前,电生理学家们需要通过语义定义物体。这使得研究者很难用数学的语言准确描述视觉表征的本质。但是深度神经网络的出现,一定程度上解决了这个问题。深度神经网络可以自动学习物体识别任务,并在这个过程中自动提取物体特征,提供一种可能的视觉表征。

下面这篇文章,开辟了用深度神经网络研究生物视觉的领域。这篇文章使用了一个类似AlexNet的HMO架构,在使用图片数据库训练深度学习模型的同时,也将部分图片给猕猴看,并记录其V4和IT脑区神经元电生理响应,评估大脑表征与神经网络表征的相似性。从结构上考虑,深度神经网络应当与生物视觉具有一定的相似性,因为它们都具有多层级结构,都具有感受野,而且有一致的物体识别的计算目标

在这项研究中,Dicarlo等人首先设计了一个类似于AlexNet的HMO深度神经网络模型,并选取了一系列传统机器学习模型,将这两类模型对物体类别的预测效果和直接使用V4/IT电生理信号预测物体类别的效果比较。当图片变化很小的时候,这些方法都有较好的物体识别表现。但是当图片大小,朝向有较大变化时,深度学习以外的简单模型性能明显变差,而HMO模型和IT神经元表现预测效果仍然不错。

接下来,Dicarlo等人尝试把图片刺激输入到深度学习模型,并提取神经网络的中间表征预测神经元的电生理信号,以预测精度评估深度神经网络与人脑表征的相似性。实验结果如下图所示:HMO最深的一层对IT电生理响应预测效果最好,而V4区域与HMO中间两层表征更为类似。这一结果不但表明深度神经网络可以很好地解释神经元电生理信号,且说明深度神经网络和生物视觉皮层类似,都存在着层级结构的表征,而且层级结构之间有较好的相互对应。

7. 鲍平磊教授的相关研究

目前,人类对下颞叶的理解主要集中于若干有特定功能的脑区。然而在此之外,还有很大一部分的神经元功能没有被探明。深度学习模型能否帮助我们更好地理解下颞叶?

首先,鲍教授的团队使用电生理和fMRI的方法,在IT区域发现了一个新的脑区(Network X)。电生理实验表明,Network X和另外两个功能已知的脑区有着明确的功能连接,即这三个脑区“同样归属于一个网络”,但还不清楚Network X的具体功能是什么。

接下来,鲍教授的团队对Network X进行电生理记录。他们给猕猴观看了51个物体的24个视角,记录了Network X每一个神经元对这些物体的反应。结果如下图所示:每一行是一个神经元,每一列是一类物体,每一个小格代表观看特定物体时,特定神经元的活跃程度。不难看出,Network X的神经元具有明确的物体选择性。

如下图所示,尽管这些神经元有明确的物体选择性,但它们似乎不对特定某一类别有偏好。那到底是什么样的特征会引起Network X的选择性响应?

通过观察,鲍教授团队提出猜想:Network X是否对较为“细长“,即Aspect ratio(长宽比)较大的区域有选择性响应?进一步实验的结果如下图所示,表明Network X神经元响应确实与物体的长宽比存在显著的正相关,对高长宽比的物体反应强烈,而对低长宽比的物体反应较弱。

能否用深度神经网络描述大脑的表征?鲍教授的团队受Dicarlo等人对深度神经网络和人脑表征相似性研究的启发,把呈现给猴子的视觉刺激也输入到了AlexNet深度神经网络模型中,并提取fc6层(倒数第二层)的模型表征,对其进行PCA降维。完成降维操作后,鲍教授的团队分别找到了投影到PC1/PC2维度上值最大和最小的几张图片,如下图所示。可以看出,PC1一定程度上刻画了spiky/smooth的特征,而PC2一定程度上刻画了animate(curve)/inanimate(square)的特征。而且容易发现,Network X与AlexNet(fc6)在PC1维度上的表征有很强的相似性。

为什么Network X的表征的和AlexNet fc6的PC1有这样的相似性?如果考虑PC1和PC2两个维度构成一个特征平面,那么如下图所示,我们可以认为第一象限对应Network X脑区,第二象限对应(已知的)Body脑区,第三象限对应(已知的)Face脑区。会不会下颞叶整体就表征这样一个二维空间呢?如果确实如此,就不难理解为什么会有如此的巧合存在。

为了验证这一想法,鲍教授的团队首先将所有输入AlexNet的图片产生的表征在PC1/PC2平面上的投影画成灰色的点,然后分别将Network X / Body / Face脑区最喜欢的100张图片对应的点。可以发现,这三个脑区占有了四个象限中的三个象限,和假说一致。如果大脑确实这样表征物体,那么可以预测,还应该存在一个脑区,对方形的无曲线无凸起的物体有特定的响应。

通过fMRI实验,鲍教授团队在猴脑中找到了一个对方形的无曲线无凸起的物体选择性响应的区域,并将电极放置在这一区域进行电生理记录,进一步验证了这一脑区神经元的响应。后续将其记为“stubby”脑区。

将stubby脑区最偏好的100张图片也标记在PC1/PC2平面上,发现它们确实分布在先前缺失的区域中。这很好地验证了IT区域与AlexNet fc6编码的相似性,验证了将物体编码在该二维平面上的假说。

为了排除模型架构不同所带来的影响,鲍教授团队在不同架构的深度神经网络模型上做了实验,发现了类似的结果:四个脑区最感兴趣的图片分布彼此分离,且大致覆盖整个特征空间。这揭示了一件深刻的事情:尽管网络结构差异很大,但相同的优化目标(优秀的物体识别能力)使神经网络和大脑找到了类似的解决方案,即将图片表征在上述二维空间中。物体识别任务的空间编码特性,在很大程度上依赖于优化目标。

至此,前面的假说已经被充分验证。这是一个非常精彩完整的工作。

接下来,鲍教授的团队对这一研究做了更进一步的实验。可以看到,IT区域实际上大约只有53%区域的功能是已经被研究的。

按照刚才提出的理论,物体被编码在二维空间四个象限上,分别与Body / Face / Stubby / Network X四个脑区对应。这四个区域总面积不大,并不能填满下颞叶,但是理论上应当包含足够的信息来解码物体的形状。鲍教授团队尝试通过用神经电生理信号重构图片,来进一步验证:这四个脑区是否包含了足够的关于图片形状的信息?

在尝试用神经电生理信号重构图像前,首先要验证深度神经网络隐藏层表征重构图片的可行性。而2016年Dosovitskiy和Brox的一项研究表明,对抗生成网络(Generative Adversarial Network, GAN)确实可以很好地从AlexNet fc6层的特征重构图片。

接下来,鲍教授团队将下颞叶四个脑区采集的电生理信号线性映射到fc6的特征空间中,再将其输入到GAN中进行图片重构,结果发现效果优异。这说明这四个脑区的电生理信号包含了充分的物体形状信息。

此处可能会被质疑:利用V1 - V4脑区电生理信号重构图片的效果其实更好,这一实验的先进性如何体现?需要注意的是,V1-V4区域信息表征较为初级,输入的视觉刺激未经过复杂的变换,所以重构难度较低。而视觉信息到达IT区域时,已经经过了复杂的非线性变换,具有很强的类别特异性,利用IT的电生理信号重构图片要困难得多。该实验能够充分证明,前面提到PC1/PC2物体表征方式假说的合理性。这也进一步指出了:该假说所提到的四个脑区的电生理信息,对于图片形状的重构任务是充分的。

最后,鲍教授对目前IT区域的整体图景做了一个总结:

在鲍教授的分享后边,我们组织了两次系列论文研读活动,主题分别为《利用神经网络寻找神经元的最优刺激》和《不同类型神经网络与视觉系统的关系》,具体内容见海报。

图片

图片

感兴趣的朋友可以点击次链接报名读书会:https://pattern.swarma.org/study_group/21,也可以扫下方二维码报名。

 

写作:NCC lab  杜鹏辉

校对:车文心、刘泉影

转载请先发邮件咨询:刘泉影,liuqy@sustech.edu.cn

 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除