今日直播 | 如何用AI大模型「读脑」并重建所见图像？中国科学院学者在线分享

人类视觉神经系统能够高效地感知和理解现实世界中的复杂视觉刺激，这种突出的能力是当下的人工智能系统无法比拟的。通过神经编码和解码模型来研究不同脑区的功能可以使我们更加深入地理解人类视觉感知系统。

视觉神经编码指的是将外部视觉刺激拟合成神经活动信号的过程。视觉神经解码则是要找到一个从神经信号到对应视觉刺激的映射，这是一项充满意义和挑战的工作，根据解码难度和目标的不同可以划分为刺激分类、刺激检索与刺激重建。其中，刺激重建旨在将人脑的神经活动转化为人类可理解的图像或视频，以实现对思维和感知的破译，其方法是直接通过给定的 fMRI（功能性磁共振成像）信号生成图像，并且要求其形状、位置、朝向等细节与对应刺激图像对齐。

之前的一些研究在手写数字、字母、人脸等简单视觉刺激的解码重建方面取得了一定的进展，但是其重建结果在位置、朝向等结构信息上不可控、且缺乏明确的语义信息，难以辨别。

近期，借助多模态预训练大模型（如 CLIP）与生成能力更强的 AI 模型（如 Stable Diffusion），中国科学院自动化研究所的的脑信息解码工作得到了语义明确且与原图更接近的重建图像。

具体来说，他们收集了「脑-图-文」三模态数据集，并将大脑、视觉和语言知识相结合，通过多模态变分自编码（VAE）学习的方式，首次实现了从人类脑活动记录中零样本地解码视觉新类别，相关论文已发表在人工智能领域顶级期刊 IEEE TPAMI（参见《TPAMI 2023 | 无创解码大脑信号语义，中科院自动化所研发脑-图-文多模态学习模型》）。

研究表明，人类对视觉刺激的感知和识别受到视觉特征和人们先前经验的影响。当我们看到一个熟悉的物体时，我们的大脑会自然而然地检索与该物体相关的知识。比如当我们看到大象的图片时，会自然地在脑海中检索到大象的相关知识（如长长的鼻子、长长的牙齿、大大耳朵等）。此时，大象的概念会在大脑中以视觉和语言的形式进行编码（双重编码），其中语言作为一种有效的先前经验，有助于塑造由视觉产生的表征。因此，作者认为想要更好地解码记录到的脑信号，不仅应该使用实际呈现的视觉语义特征，还应该包括与该视觉目标对象相关的更丰富的语言语义特征的组合来进行解码。

中国科学院自动化研究所研究人员提出的「脑 - 图 - 文」三模态联合学习框架，简称 BraVL。

此外，他们还借助 Stable Diffusion 和 CLIP 新提出了一种基于扩散模型的两阶段图像重建模型 MindDiffuser，相关论文已被国际多媒体大会 ACM MM 2023 接收。

这些研究结果表明了一些有趣的结论和认知洞见：

从人类脑活动中解码新的视觉类别是可以实现的，并且精度较高；
使用视觉和语言特征的组合的解码模型比仅使用其中之一的模型表现更好；
视觉感知可能伴随着语言影响来表示视觉刺激的语义；
该研究取得了目前最优的图像重建结果。

这些研究为理解大脑中的语义信息处理机制、发展恢复视觉功能的方法以及辅助脑机接口系统设计等方面提供了潜在的应用价值。

为了让大家更好地了解这些研究成果，将于北京时间 8 月 29 日 19:00-20:00 邀请两项研究的第一作者、中国科学院自动化所副研究员杜长德进行技术分享。

分享主题：AI 读脑：生成式模型驱动的脑信息解码与视觉重建

嘉宾简介

杜长德，中国科学院自动化所副研究员，从事脑认知与人工智能方面的研究，在包括 Cell 旗下子刊 iScience、TPAMI、AAAI、KDD 等发表论文 40 余篇。曾获得 2019 年 IEEE ICME Best Paper Runner-up Award、2021 年 AI 华人新星百强。先后承担科技部、基金委、中科院的多项科研任务，研究成果被 MIT Technology Review 头条报道。

仅用于学术分享，若侵权请留言，即时删侵！

参考：机器之心

更多阅读

马斯克合伙人“造出”大脑皮层有望进行人体测试

人类“第六感”首次被证实，研究发现人脑具有磁场感应能力

上海交大教授卢策吾深度解读“具身智能”

预见2023：《2023年中国脑机接口行业全景图谱》

这个脑机接口实现每分钟超60个单词的意念说话

脑机接口公司Precision Neuroscience完成了B轮4100万美元

哈佛研究人员说：柔性水凝胶电极也许是脑机接口的下一步

人类意识的大脑模式