- 简介从脑活动中解码自然视觉场景已经得到了广泛的发展,针对单个受试任务进行了大量的研究,但是对于跨受试任务的研究却较少。在跨受试任务中重建高质量图像是一个具有挑战性的问题,因为受试者之间存在深刻的个体差异,并且数据注释也很少。在本研究中,我们提出了MindTuner用于跨受试视觉解码,仅利用1小时的fMRI训练数据就能够实现高质量和丰富语义的重建,这得益于人类视觉系统中的视觉指纹现象和一种新的fMRI到文本对齐范式。首先,我们在7名受试者中预训练一个多受试者模型,并在新受试者上进行了有限数据的微调,其中使用了LoRAs和Skip-LoRAs来学习视觉指纹。然后,我们以图像模态作为中间枢轴模态,实现了fMRI到文本的对齐,这实现了令人印象深刻的fMRI到文本检索性能,并通过微调的语义来纠正fMRI到图像的重建。定性和定量分析的结果表明,MindTuner在自然场景数据集(NSD)上超越了最先进的跨受试视觉解码模型,无论使用1小时还是40小时的训练数据。
-
- 图表
- 解决问题本文旨在解决跨受试者视觉解码问题,使用少量数据实现高质量、丰富语义的重建。这是一个新的问题。
- 关键思路MindTuner模型采用了多受试者模型预训练和少量数据微调相结合的方法,利用视觉指纹和fMRI-to-text对齐范式实现了高质量的跨受试者视觉解码。
- 其它亮点MindTuner模型在自然场景数据集上实现了最先进的跨受试者视觉解码,无论使用1小时或40小时的训练数据。MindTuner还使用了一种新的fMRI-to-text对齐范式,并实现了令人印象深刻的fMRI-to-text检索性能。
- 相关研究包括:1.《Deep Image Reconstruction from Human Brain Activity》;2.《Cross-subject fMRI decoding using spatial dependency kernel》;3.《Multi-voxel coding of stimuli, rules, and responses in human frontoparietal cortex》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流