【论文标题】The functional specialization of visual cortex emerges from training parallel pathways with self-supervised predictive learning

【作者团队】Shahab BakhtiariPatrick MineaultTim LillicrapChristopher C. PackBlake A. Richards

【发表时间】2021/06/24

【机 构】Mila、DeepMind、麦吉尔大学

【论文链接】https://www.biorxiv.org/content/10.1101/2021.06.18.448989v2.full

【代码链接】https://github.com/haemyleemasson/voxelwise_encoding

哺乳动物的视觉系统是由平行的、分层次的专门通路组成的。因为不同通路使用的表征更适合于支持特定的下游行为。特别是,最明显的例子是视觉皮层的腹侧("what")和背侧("where")通路的专业化。这两条通路分别支持与视觉识别和运动有关的行为。到目前为止,深度神经网络大多被用作腹侧识别通路的模型。然而,目前还不知道这两条通路是否可以用一个单一的深度神经网络进行建模。本文探索一个具有单一损失函数的单一模型是否能捕捉到腹侧和背侧通路的特性。作者利用小鼠的数据来探讨这个问题,小鼠和其他哺乳动物一样,有专门的通路来支持识别和运动行为。本文表明,当使用自监督的预测损失函数训练一个具有两个平行通路的预训练深度神经网络架构时,在拟合小鼠视觉皮层时可以胜过其他模型。此外,我们可以对背侧和腹侧的通路进行建模。这些结果表明,适用于平行通路架构的自监督预测学习方法可以解释在哺乳动物视觉系统中的功能专一化。

上图显示了(a) 小鼠视觉皮层示意图。(b) 视觉区域之间的代表性相似性分析。(c) 视觉区域的解剖层次分数。( d )视觉区域的腹侧和背侧得分,区域从最腹侧 (VISlm - 左) 到最背侧 (VISam - 右) 区域排序。

上图显示了 (a)单路径 ResNet-1p 和 (b)双路径 ResNet-2p 主干架构的对比预测编码模型示意图。当前帧和过去帧作为 ResNet 的输入。ResNets 在每个时间点的输出然后被传递到循环神经网络。模型在Imagenet上进行预训练,具体结果请参照原文。

本文表明用CPC进行自监督的学习可以产生比简单模型或以监督方式训练的ANN更类似于小鼠视觉皮层的表征。此外,本文还表明,CPC应用于具有两条平行通路的结构,可以模拟小鼠视觉皮层的腹侧和背侧区域。下游的物体识别和运动识别任务也支持模型中两条通路的腹侧和背侧表征。实验表明,双通路结构和视频数据集对学习这两种类型的表征是必要的,但不是充分的,显示了自我监督的目标函数和结构之间的互动。这一发现表明,自我监督的预测性学习是模型中获得类似腹侧和背侧表征的一个必要组成部分。


学习输入数据(图像、视频等)的表征,对某些数据的增强(如旋转、裁剪等)是现代自我监督学习方法的共同目标。在诸如SimCLR和BYOL这样的模型中,增量的设计是为了学习最适合下游任务的表示。然而,在CPC中,增强是被使用的数据所固有的。如上所述,预测影像中的下一帧需要两个不同的不变性。1)对运动的不变性,但对形状有选择性;(2)对形状的不变性,但对运动有选择性。本文的结果表明,这两种类型的不变性是相互排斥的,这既可以解释需要两个独立的途径来获得与腹侧和背侧区域的良好匹配,也可以解释所学表征的腹侧相似性和背侧相似性之间的反比关系。因此,本文的结果表明,在哺乳动物大脑中观察到的功能专一化可能是预测目标应用于具有两种不同通路的结构的自然结果。

 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除