MindTuner: Cross-Subject Visual Decoding with Visual Fingerprint and Semantic Correction

简介

从脑活动中解码自然视觉场景已经得到了广泛的发展，针对单个受试任务进行了大量的研究，但是对于跨受试任务的研究却较少。在跨受试任务中重建高质量图像是一个具有挑战性的问题，因为受试者之间存在深刻的个体差异，并且数据注释也很少。在本研究中，我们提出了MindTuner用于跨受试视觉解码，仅利用1小时的fMRI训练数据就能够实现高质量和丰富语义的重建，这得益于人类视觉系统中的视觉指纹现象和一种新的fMRI到文本对齐范式。首先，我们在7名受试者中预训练一个多受试者模型，并在新受试者上进行了有限数据的微调，其中使用了LoRAs和Skip-LoRAs来学习视觉指纹。然后，我们以图像模态作为中间枢轴模态，实现了fMRI到文本的对齐，这实现了令人印象深刻的fMRI到文本检索性能，并通过微调的语义来纠正fMRI到图像的重建。定性和定量分析的结果表明，MindTuner在自然场景数据集（NSD）上超越了最先进的跨受试视觉解码模型，无论使用1小时还是40小时的训练数据。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决跨受试者视觉解码问题，使用少量数据实现高质量、丰富语义的重建。这是一个新的问题。
关键思路

MindTuner模型采用了多受试者模型预训练和少量数据微调相结合的方法，利用视觉指纹和fMRI-to-text对齐范式实现了高质量的跨受试者视觉解码。
其它亮点

MindTuner模型在自然场景数据集上实现了最先进的跨受试者视觉解码，无论使用1小时或40小时的训练数据。MindTuner还使用了一种新的fMRI-to-text对齐范式，并实现了令人印象深刻的fMRI-to-text检索性能。
相关研究

相关研究包括：1.《Deep Image Reconstruction from Human Brain Activity》；2.《Cross-subject fMRI decoding using spatial dependency kernel》；3.《Multi-voxel coding of stimuli, rules, and responses in human frontoparietal cortex》。

MindTuner: Cross-Subject Visual Decoding with Visual Fingerprint and Semantic Correction

提问交流

提问交流