当前,深度学习为代表的机器视觉模型已经在多种计算机视觉任务中取得了显著的成果,但与人类相比,深度学习仍有不足。为了发展出功能更强的视觉系统,研究者开始从生物大脑借鉴,研究类脑视觉。

知识点

1.类脑视觉是指模拟生物视觉系统中的架构和计算机理,发展相关的软硬件算法和设备,并在视觉任务中得到应用。

2.生物神经系统处理视觉信号的原理是,首先通过视网膜接收光流信号,在视网膜上被转化为脉冲序列信号,然后通过视神经的层级加工,传输到大脑的视觉皮层。

3.目前,类脑视觉研究主要集中在两个方面:信号采集和研发计算模型。信号采集方面出现了动态视觉传感器(Dynamical Version Sensor,DVS),以及脉冲摄像头(Spiking Camera)等研究成果;计算模型方面有运动目标快速检测、运动目标预测跟踪和运动目标识别等算法的研究。

定义

类脑视觉是指模拟生物视觉系统中的架构和计算机理,发展相关的软硬件算法和设备,并在视觉任务中得到应用。[1] 类脑指的是模仿生物大脑的意思,主要是通过研究这些环节中的信息收集、处理和计算模式,并通过软硬件仿真的方面,将其应用在计算机中。

生物神经系统处理视觉信号的原理是,首先通过视网膜接收光流信号,在视网膜上被转化为脉冲序列信号,然后通过视神经的层级加工,传输到大脑的视觉皮层。类脑视觉的目标就是通过研究这些过程中的机制机理,并研发相关的软硬件应用以及编程语言和开发工具等。

图注:生物视觉系统加工基于脉冲序列的时空动态模式 [1]

类脑视觉重点研究领域

目前,类脑视觉研究主要集中在两个方面:信号采集和研发计算模型。

1.信号采集

为了模拟生物捕捉视觉信号的过程,研究者需要了解生物视觉时空动态输入的特点,并研究出相应的采集硬件。

当前,类脑感知元器件技术发展迅速,能够实现将光信号转换为脉冲序列进行表征的方法,包括动态视觉传感器(Dynamical Version Sensor,DVS),以及脉冲摄像头(Spiking Camera)。[1]

DVS模拟的是视网膜的感知,能够以非同步化的方式感知外部图像中每一个像素点的亮度变化,并输出脉冲事件流,具有在空间上稀疏,时间上离散的特点。

图注:DVS的示意图[8]

脉冲摄像头则是受大脑中的中央凹视觉系统的启发。[2] 通过构建像素处理阵列,对于每一个像素位置,都设置一个转换器+累加器模块,通过转换器模块,将每一个像素位置的光强转换为电压,并输入到累加器中,实现视觉信号的采集。[1]

图注:脉冲摄像头示意图[2]

2.计算模型

基于类脑感知器件采集的脉冲信号,可以发展类脑计算模型。在视觉领域,主要集中于目标检测、目标追踪和目标识别三种类型的任务。由于神经网络不能很好地处理时空动态模式,因此研究者将类脑视觉计算模型主要运用在运动目标的相关任务上。

(1)运动目标快速检测

有理论认为,兴奋-抑制平衡网络(Excitation-inhibition Balanced Neural Network)可以帮助网络对外部变化刺激进行快速响应。[3] 目前已被应用于类脑计算中,在脉冲摄像头数据上证实,可以实现高速运动目标的快速检测。[4]

(2)运动目标预测跟踪

视觉信息在大脑中传递时存在延迟,需要大脑进行合适的补偿,否则我们对运动物体的感知会滞后于其在外部世界的真实位置。根据生物神经网络预测跟踪的计算机制,能够启发研究者实现类脑视觉上的目标位置预测跟踪。[5]

(3)运动目标识别

生物系统的视觉通路分为大脑皮层上通路和下通路。 [1] 研究认为,下通路主要负责运动物理的快速识别。例如,对于高等动物而言,下视觉通路在本能地快速检测危险信号时十分重要。[6] 一些研究者因此对这种通路进行了建模,提出了新的类脑运动模式识别算法。[7]

*本文主要内容来自《白皮书:人工智能的认知神经基础》(2021年),白皮书编写组成员张博、苏杰、蒋龙生等,指导专家为刘嘉、宋森、吴思、方方、余山、陈良怡,点击这里下载原文。本人在此对白皮书的编写组和指导专家表示感谢。

参考链接

[1] 张博、苏杰、蒋龙生等(2021)白皮书:人工智能的认知神经基础。链接: https://ticket-assets.baai.ac.cn/uploads/2021《人工智能的认知神经基础白皮书》.pdf 

[2] Zhu, L., Dong, S., Huang, T., & Tian, Y. (2019, July). A retina-inspired sampling method for visual texture reconstruction. In 2019 IEEE International Conference on Multimedia and Expo (ICME) (pp. 1432-1437). IEEE.

[3] S. Denève, C. K. Machens. Efficient codes and balanced networks[J]. Nature Neuroscience, 2016,19:375–382.

[4] Tian, G., Li, S., Huang, T., & Wu, S. (2020). Excitation-Inhibition Balanced Neural Networks for Fast Signal Detection. Frontiers in Computational Neuroscience, 14, 79.

[5] Mi, Y., Fung, C. C., Wong, M. K. Y., & Wu, S. (2014). Spike frequency adaptation implements anticipative tracking in continuous attractor neural networks. Advances in neural information processing systems, 1(January), 505.

[6] De Franceschi G, Vivattanasarn T, Saleem A B, et al. Vision guides selection of freeze or flight defense strategies in mice[J]. Current biology, 2016, 26(16): 2150- 2154.

[7] Lin, X., Zou, X., Ji, Z., Huang, T., Wu, S., & Mi, Y. (2021). A brain-inspired computational model for spatio-temporal information processing. Neural Networks, 143, 74-87.

[8] Bi, Z., Dong, S., Tian, Y., & Huang, T. (2018, March). Spike coding for dynamic vision sensors. In 2018 Data Compression Conference (pp. 117-126). IEEE. 

内容中包含的图片若涉及版权问题,请及时与我们联系删除