导读

脑科学是人类理解与自然关系的“最后一块疆域”。理解其工作机理,进而揭示智能的形成和运作原理,对脑功能认识、模拟和开发,抢占国际科技创新制高点具有重要意义。本世纪初各个国家与地区脑计划相继启动。我国在十三五期间启动了中国脑计划,“脑科学与类脑研究”更已作为十四五重大项目列入规划纲要。科学革命常以新的研究技术的发明为前导,当前人工智能与云计算等技术蓬勃发展,使得高精度研究、模拟大脑变得可能。在细胞和亚细胞级别理解清楚不同脑区生物神经元连接、信号转导机制、脑结构与功能的宏观关系也给大数据存算读带来全新挑战。解决这些挑战的亦可启发新的技术浪潮,影响力可能会远超神经科学、脑科学范畴。

欧盟人脑计划(Human Brain Project)源于欧盟的“未来与新兴技术”计划,是欧盟有史以来规模最大的研究计划之一,于2013年启动,由15个欧洲国家和地区参与、预期10年完成,项目规模约10亿欧元,目前已进入最后阶段。作为该计划现在的领衔科学家和主要建设者的 Katrin Amunts教授和Thomas Lippert教授近日(11月25日)在Science上发表观点文章《Brain research challenges supercomputing》,介绍了脑科学研究给超级计算机带来的架构、计算范式、算力、存储等等方面的挑战。以下是我个人的一个粗浅编译。因个人水平有限,仅供粗读参考。请点击下面链接阅读英文原文。


原文链接:https://www.science.org/doi/full/10.1126/science.abl8519 

作者简介:

Katrin Amunts是杜塞尔多夫大学 C. and O. Vogt脑科学研究所的教授、于利希研究中心的INM-1神经科学与医学研究所所长。她是世界上脑图谱领域最杰出的神经科学家之一。她是欧盟人脑计划(Human Brain Project)的科学研究总监(Scientific Research Director)、科学基础设施委员会主席(Science and Infrastructure Board (SIB))。

 

Thomas Lippert 教授是Jülich 超级计算中心高级模拟研究所所长,冯诺依曼计算研究所 (NIC) 董事会成员,伍珀塔尔大学计算理论物理主席。Thomas Lippert 教授现在领导着世界上首屈一指的 HPC 设施之一——Jülich 超级计算中心。该中心拥有西欧两台最快的计算机(JUGENE 和 JuRoPA),以及最节能的计算机 (QPACE)。

 

 

 

脑科学研究给超算带来挑战

成人大脑包含约860亿神经元[1]。深入细胞和亚细胞级别的细节以揭示神经元连接的各种特性是当今脑科学研究的一个关键领域。然而,从突触(纳米级别)到单个神经元、神经胶质细胞(微米级别)再到整个器官组织,这种跨多个空间尺度数据的组织和连接极具挑战。最近,秀丽隐杆线虫的所有302个神经元的连接图谱已被详细测绘。同时研究人员提出了对应的完整结构功能模型[2]。当前人类大脑连接组的细致程度远不及线虫脑连接组,解释清楚大脑连接组、信号转导机制及其与大脑结构与功能的关系仍然任重道远,这些工作给前沿计算和存储技术带来了指数级别增长新挑战。反过来,解决这些挑战的过程带来的影响力可能会远超神经科学、脑科学范畴。

由于数据扫描的时长、数据处理、存储带来的一些技术挑战并非始于人类大脑的研究,这些问题在研究脊椎动物甚至无脊椎动物的大脑时就已经出现[见图]。 例如,重建具有约100,000个神经元的成年果蝇大脑的突触连接时产生了大约2100万张图像和106TB的数据[3]。对人类大脑皮层1立方毫米微小区域进行三维重建的过程中产生了约1.4PB的数据。尽管这1立方毫米仅仅是脑皮层微小部分,约占大脑总体积的0.00007%,但是却需要高速多束电子显微镜(high-speed multibeam electron microscope)长达326天的扫描。此类方向的研究能够帮助我们更加深入地理解皮层网络,并提供能够提供定量数据来描述组织特性和大脑活动方式。

对人脑组织的分析是对其他物种大脑研究的重要补充,因为人类与其它动物大脑之间存在相当大的差异,尤其是连接特征。例如在哺乳动物进化过程中,大脑皮层白质(包含支持长距连接的轴突)的体积比灰质(包含神经元细胞体)增加得更快[5],长短连接的比例对电生理特性有影响,因此会影响大脑的功能[6]。然而,由于人脑细胞的轴突很长,轴突可能会距离胞体几厘米远,因此,与啮齿动物或无脊椎动物相比,全面地研究人脑神经元的轴突和突触要困难得多。

磁共振成像(MRI)(如diffusion MRI, 弥散磁共振成像)能够实现大脑长距离连接成像,并且揭示连接模式,包括活体人脑中的功能连接,但成像的体素在毫米范围内,此分辨率远远低于检测单根轴突所需的空间分辨率,因此容易导致神经束重建中的不确定性[7]。此外,大脑连通性包括诸如侧支化(collateralization)(一个轴突可能指向多个目标)、汇聚(convergence)、互连接(reciprocity)或在空间上分离的树突分支(spatially separate dendritic arbors)等现象,这些现象被认为是理解连通性的关键[8]信息,但却无法通过MRI获得。

因此,宏观和微观连接组尺度之间存在错位[9]。目前已经提出了不同的方法来弥合两个尺度:例如,最近有研究在脑组织块中同时使用了弥散磁共振成像和基于CLARITY的荧光高分辨率光学成像技术,使得我们可以进行更加鲁棒地进行多模态(MRI-CLARITY)比较[10]。在另外一项研究中,研究人员对一块来自人脑海马区的组织进行了多种形式的成像,包括结构核磁成像、弥散磁共振成像,三维偏振光成像[3D-PLI, 11], 以及双光子荧光显微成像,并将海马体不同空间尺度的纤维结构信息汇总在一起,将其表示在一个共同的参考空间,即BigBrain模型(www.ebrains.eu)。 这些数据揭示了穿通通路(perforant pathway)并不是一个匀质的束路,而是一个多组分系统,该通路通过直径约20微米的细轴突纤维束起源于内嗅皮层,并投射至海马角(cornu ammonis)和海马下托(subiculum)[12]。3D-PLI可以帮助我们解析穿通通路的精细结构,该通路被认为在学习记忆以及阿尔茨海默病的发病机制中具有核心作用。从方法学的角度来说,不同技术的结合有助于交叉验证研究结果,能够极大地推进高分辨率高价值区域分析与全脑尺度研究的联合。

基于图谱的研究方法能够将来自单细胞的超高分辨率研究数据及与其相连的有价值小区域整合到一个共同的微观参考空间中,因此该方法系统性地搭建起了宏观与微观尺度研究的桥梁。BigBrain就是一个具有代表性的解剖模型,它具有20微米的各向同性分辨率,略高于查看细胞形态细节所需的分辨率,它是基于7404个组织学、细胞体染色切片所构建的,原始数据集大小约为1TB[13]。BigBrain提供了将皮层甚至亚层尺度上的研究发现与全脑结构、连接性和功能数据相结合的模版。将数据整合在同一图谱的方法结合了自下而上(bottom-up)和自上而下(top-down)两种方法的各自优势,前者(bottom-up)从细胞特征和连接开始,逐步去建设到宏观尺度,后者(top-down)从行为功能和底层大规模网络开始。这样一来可以更好地去理解大脑不同组件的特性,也就是细胞和神经回路。在构建图谱的过程中,这两种方法需要提供信息来进行相互参考或相互约束彼此预测。

在细胞级的分辨率上处理和分析整个人类大脑是一项巨大的挑战。尽管在全脑水平上细化到单个轴突的研究技术还遥不可及,但是我们可以预估在全脑尺度下追踪轴突所需要的计算资源。为了简单起见,我们假设一根轴突只连接两个神经元。在这种情况下,通过弥散核磁成像对大脑在毫米尺度上进行全脑范围的神经纤维走向计算意味着要优化4 × 105旋转方向(spin direction)。这大约将需要约130兆字节的存储空间和一台台式机1天的计算时间。

使用3D-PLI[11]对整个人脑进行60 -µm各向同性分辨率下的轴突分析,将需要8.3T的存储空间,并在现有的超级计算机上需要几天时间来优化 2 × 1010个旋向。如此大的数据集也给数据可视化带来了巨大挑战。例如,基于开源软件VTK的Paraview ( www.paraview.org )软件使用并行图形处理单元(GPU)来渲染和可视化3D-PLI数据。进一步地,如果我们以1.3-µm面内分辨率(即单轴突级别)进一步优化使用3D-PLI获得的纤维走向,1013旋向将带来3.2PB的存储需求和以年为单位的计算时间需求。这些需求无法通过目前的千万亿次级(petascale)的超算技术来实现,但或许可以通过未来具有百亿亿级(exascale)计算能力的机器来实现,即每秒能够执行1018次浮点运算(即 1 exaflop)的超级计算机。处理如此海量数据,会给输入输出亦带来大量的计算需求。当下更高效的输入输出程序和算法不断涌现,这对解决这个问题会有帮助,即便如此计算带来的整体挑战仍然极高。

来自人脑研究的大数据。 不同人脑连接组和组织研究的分辨率下,数据的大小呈指数增长。最大的两个数据是估计值,因为人类大脑研究尚不存在此类数据。 图源:K.FRANKLIN / SCIENCE

由于神经元分子结构具有区域特异性,并且对于信号转导至关重要,因此想要获取更加精细的信息,需要更加精细的计算。当细胞甚至轴突信息与大脑组织的其他维度相关联时,计算需求进一步增长。同样,当需要添加时间维度变化来模拟细胞活动、可塑性或网络功能是,计算需求会进一步增长。在构建更具有生物真实性的大脑模型时,不仅要考虑大脑的区域隔离,还要考虑层级(laminar)和亚层级(sublaminar)的特征,及其特异的细胞数量、解剖和生理特性以及分布[14]。 同样地,想要计算模拟一个考虑了解剖学和生理学限制的更加生物真实的人脑模型,所需的计算需求也将会成比例的增长。

这对高性能计算技术提出了新的需求。当下,神经科学研究越来越依赖可扩展的流程,从多模态数据的存取到数据的预处理、模拟、可视化和分析,也越来越多地使用机器和深度学习技术。这种工作流程组件化计算,将受益于未来超级计算的模块化和交互式概念,正如European Deep Projects中做的那些事情。在模块化超级计算架构中,专门的计算模块被集成为可以深度连接的硬件架构,并且专门适配于某个工作流特定组件的计算模块可被连贯使用[15]。这包括中央处理单元 (CPU) 集群、GPU 加速计算集群、用于数据分析的现场可编程门阵列(FPGA)模块、神经形态系统、极限存储模块,以及未来的量子计算机和退火机(quantum annealers)。此外,当下神经科学工作流程对与交互式超级计算的需求也在持续增长——例如,实验迭代进行过程中需要可视化中间结果和调节参数——这非常依赖于 Paraview 等图形可视化软件的在超算上的交互式使用。

神经科学中的大数据挑战需要专门的技术解决方案来解决存储数据(从TB到PB)问题,并通过云存储共享给更多研究社区。这需要从面向对象的云存储系统到超级计算机的EB级并行文件系统的数据传输。

艾伦脑研究所(alleninstitute.org)为神经科学家提供了一个平台,共享了大量不同物种(包括果蝇、斑马鱼、小鼠和人类)的大脑组织的多个方面的图像集,以及用于数据可视化、上传和下载的工具(BigNeuron; www.alleninstitute.org/bigneuron/data/)。人类生物分子图谱计划(The Human BioMolecular Atlas Program )旨在开发一个开放的全球平台,绘制整个人体的健康细胞图,这项工作也带来了相当大的大数据和计算挑战。在欧洲,欧盟人类大脑计划(Human Brain Project)开发了EBRAINS, 用以提供各种研究设施、数据和相关服务—重点关注人类、大鼠和小鼠的大脑。这些数据、设施和服务相互连接,通过 Fenix实现云访问交互式超级计算、基于网络的可视化和分析,以及精细模拟和更多数据服务。这个平台是由神经科学研究人员和工程开发人员根据实际研究需要共同建立的,能够运行大规模模拟和 3D 重建分析大脑模型等。Fenix 被设计为一个通用的基础架构即服务平台(Infrastructure-as-a-Service,IaaS),包括欧洲范围的身份验证服务,使得许多研究团体能够访问。在神经科学界共享数据、方法和研究工具、并联合不同社区之间服务可以充分利用大量相关的方法和资源投资,这也是开发新的脑疾病诊断工具和疗法的基础。毫无疑问,基于云的超级计算和分布式协作研究平台将在神经科学研究中发挥越来越大的作用,以帮助人类更好地了解自身大脑的复杂性。

REFERENCES AND NOTES

  1. S. Herculano-Houzel, Proc. Natl. Acad. Sci. U.S.A. 109, 10661 (2012).
  2. C. A. Brittin, S. J. Cook, D. H. Hall, S. W. Emmons, N. Cohen, Nature 591, 105 (2021).
  3. Z. Zheng et al., Cell174, 730 (2018).
  4. A. Shapson-Coe et al., bioRxiv 10.1101/2021.05.29.446289 (2021).
  5. B. Mota et al., Proc. Natl. Acad. Sci. U.S.A. 116, 15253 (2019).
  6. A. Stepanyants, L. M. Martinez, A. S. Ferecskó, Z. F. Kisvárday, Proc. Natl. Acad. Sci. U.S.A. 106, 3555 (2009).
  7. K. H. Maier-Hein et al., Nat. Commun. 8, 1349 (2017).
  8. K. S. Rockland, Brain Struct. Funct. 225, 1327 (2020).
  9. D. C. Van Essen et al., Neuroimage 80, 62 (2013).
  10. C. Leuze et al., Neuroimage 228, 117692 (2021).
  11. M. Axer et al., Front. Neuroinform. 5, 1 (2011).
  12. M. M. Zeineh et al., Cereb. Cortex 27, 1779 (2017).
  13. K. Amunts et al., Science 340, 1472 (2013).
  14. G. T. Einevoll et al., Neuron 102, 735 (2019).
  15. E. Suarez et al., in Contemporary High Performance Computing: From Petascale Toward
  16. Exascale, Volume Three, J. S. Vetter, Ed. (CRC Press, 2019), pp. 223–251.

原文致谢

The authors are supported by the European Union’s Horizon 2020 Research and Innovation Programme under grant agreement no. 945539 (HBP SGA3).

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除