DOI: 10.1038/s42256-023-00714-5
📜 New Concept
1、Mel 频谱图(Mel Spectrogram):横轴x为时间,纵轴y为频率,(x,y)对应的数值代表在时间x时频率y的幅值。通常的频谱p图其频率是线性分布的,但是人耳对频率的感受是对数的(logarithmic),即对低频段的变化敏感,对高频段的变化迟钝。梅尔频谱图的纵轴频率和原频率经过如下公式互换:
$m = 2595 \log_{10} \left(1 + \frac{f}{700}\right)$
$f = 700 \left(10^{\frac{m}{2595}} - 1\right)$
2、“最近的研究表明,大脑的激活与 WAV2VEC 2.0 的激活之间存在线性对应关系” (Défossez et al., 2023, p. 4)
3、“考虑到刺激与其相应的大脑反应之间的预期延迟,我们将输入的大脑信号进一步向未来移动 150 毫秒,以促进 Y 和 Z 之间的对齐。” (Défossez et al., 2023, p. 5)
🖊 Proposed Problem
1、“侵入式电极具有很高的信噪比,但侵入性记录面临着重大的实际挑战:它们需要脑部手术,并且难以长时间维持。” (Défossez et al., 2023, p. 1)
2、“M/EEG 会产生众所周知的嘈杂信号,这些信号在不同sessions和跨被试之间可能会有很大差异” (Défossez et al., 2023, p. 2)
🔬 Novel Technique
1、“常见的方式是:以监督方式训练解码器以预测已知与大脑相关的语音的潜在表示” (Défossez et al., 2023, p. 3)
2、Speech module
“将 Mel 频谱图 Y 替换为语音的潜在表示,” (Défossez et al., 2023, p. 4), 使用模型:
-
Deep Mel model
-
Wav2vec 2.0 :“经过训练,可以使用卷积块和 transformer 块转换原始波形,以预测其自身潜在表示的掩码部分。” (Défossez et al., 2023, p. 4)
3、Brain module
-
deep neural network $f_{clip}$ ,its input:
-
raw M/EEG time series X
-
one-hot-embedding of subject $s$
-
-
“Spatial attention and subject layer.” (Défossez et al., 2023, p. 5)
-
MNE-Python function find_layout:它使用一个与设备相关的表面,该表面旨在保持通道距离。
-
-
“Residual dilated convolutions.” (Défossez et al., 2023, p. 5)
📉 Experiment
1、“在训练时使用batch内的其他elements 作为负样本。在测试时,阴性样本对应于测试的所有部分,但阳性样本除外。” (Défossez et al., 2023, p. 3)
内容中包含的图片若涉及版权问题,请及时与我们联系删除



评论
沙发等你来抢