Decoding speech perception from non-invasive brain recordings

📜 New Concept

1、Mel 频谱图（Mel Spectrogram）:横轴x为时间，纵轴y为频率，(x,y)对应的数值代表在时间x时频率y的幅值。通常的频谱p图其频率是线性分布的，但是人耳对频率的感受是对数的(logarithmic)，即对低频段的变化敏感，对高频段的变化迟钝。梅尔频谱图的纵轴频率和原频率经过如下公式互换:

$m = 2595 \log_{10} \left(1 + \frac{f}{700}\right)$

$f = 700 \left(10^{\frac{m}{2595}} - 1\right)$

2、“最近的研究表明，大脑的激活与 WAV2VEC 2.0 的激活之间存在线性对应关系” (Défossez et al., 2023, p. 4)

3、“考虑到刺激与其相应的大脑反应之间的预期延迟，我们将输入的大脑信号进一步向未来移动 150 毫秒，以促进 Y 和 Z 之间的对齐。” (Défossez et al., 2023, p. 5)

🖊 Proposed Problem

1、“侵入式电极具有很高的信噪比，但侵入性记录面临着重大的实际挑战：它们需要脑部手术，并且难以长时间维持。” (Défossez et al., 2023, p. 1)

2、“M/EEG 会产生众所周知的嘈杂信号，这些信号在不同sessions和跨被试之间可能会有很大差异” (Défossez et al., 2023, p. 2)

🔬 Novel Technique

1、“常见的方式是：以监督方式训练解码器以预测已知与大脑相关的语音的潜在表示” (Défossez et al., 2023, p. 3)

2、Speech module

“将 Mel 频谱图 Y 替换为语音的潜在表示，” (Défossez et al., 2023, p. 4), 使用模型：

Deep Mel model
Wav2vec 2.0 ：“经过训练，可以使用卷积块和 transformer 块转换原始波形，以预测其自身潜在表示的掩码部分。” (Défossez et al., 2023, p. 4)

3、Brain module

deep neural network $f_{clip}$ ，its input:
- raw M/EEG time series X
- one-hot-embedding of subject $s$
“Spatial attention and subject layer.” (Défossez et al., 2023, p. 5)
- MNE-Python function find_layout:它使用一个与设备相关的表面，该表面旨在保持通道距离。
“Residual dilated convolutions.” (Défossez et al., 2023, p. 5)

📉 Experiment

1、“在训练时使用batch内的其他elements 作为负样本。在测试时，阴性样本对应于测试的所有部分，但阳性样本除外。” (Défossez et al., 2023, p. 3)

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Decoding speech perception from non-invasive brain recordings

📜 New Concept

🖊 Proposed Problem

🔬 Novel Technique

📉 Experiment

评论列表

评论