- 简介将人类动态视觉从脑活动中重建是一项具有重大科学意义的挑战。这个困难来自两个主要问题:(1) 大脑中的视觉处理机制非常复杂,没有完全揭示,因此直接学习fMRI和视频之间的映射是具有挑战性的;(2) fMRI的时间分辨率显著低于自然视频。为了克服这些问题,本文提出了一个名为Mind-Animator的两阶段模型,在三个公共数据集上实现了最先进的性能。具体而言,在fMRI到特征阶段,我们通过fMRI-视觉-语言三模态对比学习和稀疏因果注意力将语义、结构和运动特征从fMRI中解耦出来。在特征到视频阶段,这些特征通过膨胀稳定扩散与视频合并。我们通过排列测试证实,重建的视频动态确实来自fMRI,而不是生成模型的幻觉。此外,基于体素和ROI的重要性地图的可视化证实了我们模型的神经生物学可解释性。
-
- 图表
- 解决问题本文试图通过脑活动来重构人类的动态视觉,解决了什么问题?
- 关键思路Mind-Animator是一个两阶段的模型,通过fMRI-vision-language三模态对比学习和稀疏因果关注,从fMRI中分离出语义、结构和运动特征,在特征到视频阶段,这些特征通过扩张稳定扩散与视频合并,从而实现了从脑活动到视频的重构。
- 其它亮点本文的亮点包括:通过Mind-Animator模型实现了从脑活动到视频的重构;使用了三个公共数据集并取得了最先进的性能;通过排列测试证实了重构的视频动态确实来自fMRI;通过可视化展示了模型的神经生物学可解释性。
- 最近在这个领域中,还有一些相关研究,例如“Deep Generative Models for Multi-Region fMRI Data Analysis”,“Dynamic Reconstruction of Natural Scenes from Human Brain Activity”,“Decoding and Reconstructing the Contents of Visual Recognition in Human Brain”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流