DOI: 10.1038/s42256-023-00714-5

📜 New Concept

1、Mel 频谱图(Mel Spectrogram):横轴x为时间,纵轴y为频率,(x,y)对应的数值代表在时间x时频率y的幅值。通常的频谱p图其频率是线性分布的,但是人耳对频率的感受是对数的(logarithmic),即对低频段的变化敏感,对高频段的变化迟钝。梅尔频谱图的纵轴频率和原频率经过如下公式互换:

$m = 2595 \log_{10} \left(1 + \frac{f}{700}\right)$

$f = 700 \left(10^{\frac{m}{2595}} - 1\right)$

2、“最近的研究表明,大脑的激活与 WAV2VEC 2.0 的激活之间存在线性对应关系 (Défossez et al., 2023, p. 4)

3、“考虑到刺激与其相应的大脑反应之间的预期延迟,我们将输入的大脑信号进一步向未来移动 150 毫秒,以促进 Y 和 Z 之间的对齐。” (Défossez et al., 2023, p. 5)

🖊 Proposed Problem

1、“侵入式电极具有很高的信噪比,但侵入性记录面临着重大的实际挑战:它们需要脑部手术,并且难以长时间维持。” (Défossez et al., 2023, p. 1)

2、“M/EEG 会产生众所周知的嘈杂信号,这些信号在不同sessions和跨被试之间可能会有很大差异” (Défossez et al., 2023, p. 2)

🔬 Novel Technique

1、“常见的方式是:以监督方式训练解码器以预测已知与大脑相关的语音的潜在表示” (Défossez et al., 2023, p. 3)

2、Speech module

“将 Mel 频谱图 Y 替换为语音的潜在表示,” (Défossez et al., 2023, p. 4), 使用模型:

  • Deep Mel model

  • Wav2vec 2.0 :“经过训练,可以使用卷积块和 transformer 块转换原始波形,以预测其自身潜在表示的掩码部分。” (Défossez et al., 2023, p. 4)

3、Brain module

  • deep neural network $f_{clip}$ ,its input:

    • raw M/EEG time series X

    • one-hot-embedding of subject $s$

  • Spatial attention and subject layer. (Défossez et al., 2023, p. 5)

    • MNE-Python function find_layout:它使用一个与设备相关的表面,该表面旨在保持通道距离。

  • Residual dilated convolutions.” (Défossez et al., 2023, p. 5)

📉 Experiment

1、“在训练时使用batch内的其他elements 作为负样本。在测试时,阴性样本对应于测试的所有部分,但阳性样本除外。” (Défossez et al., 2023, p. 3)

 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除