- 简介从脑活动中重建视觉感知已经有了巨大的改进,但是这种方法的实际应用受到了限制。这是因为这种模型是针对每个受试者独立训练的,每个受试者都需要数十个小时的昂贵fMRI训练数据才能获得高质量的结果。本研究展示了仅使用1小时fMRI训练数据即可获得高质量重建的成果。我们在7个受试者中预先训练模型,然后在新受试者的少量数据上进行微调。我们的新颖的功能对齐程序将所有脑数据线性映射到共享主体潜在空间,然后通过共享的非线性映射到CLIP图像空间。然后,我们通过微调稳定扩散XL来接受CLIP潜在空间作为输入,从CLIP空间映射到像素空间。这种方法改善了在有限训练数据下的跨受试者泛化能力,并且与单受试者方法相比,也达到了最先进的图像检索和重建指标。MindEye2展示了如何通过单次MRI检查实现准确的感知重建。所有代码都可以在GitHub上找到。
- 图表
- 解决问题本论文试图通过使用少量的fMRI训练数据来提高视觉感知的重建效果,以解决当前使用fMRI进行视觉感知重建时需要大量训练数据的问题。
- 关键思路本论文采用预训练和微调相结合的方法,使用7个受试者的数据对模型进行预训练,然后使用一个新受试者的少量数据进行微调,通过共享主题空间和非线性映射来提高模型的泛化性能,并使用Stable Diffusion XL将CLIP潜变量映射到像素空间中。
- 其它亮点论文的实验结果表明,使用少量的fMRI数据可以获得高质量的视觉感知重建效果,并且在图像检索和重建指标方面达到了最先进的水平。此外,作者还开源了所有代码。
- 最近的相关研究包括:1.《Deep Image Reconstruction from Human Brain Activity》;2.《Reconstructing Visual Experiences from Brain Activity Evoked by Natural Movies》;3.《Towards reconstructing intelligible speech from the human auditory cortex》。
沙发等你来抢
去评论
评论
沙发等你来抢