Scaling Law in Neural Data: Non-Invasive Speech Decoding with 175 Hours of EEG Data

2024年07月10日
  • 简介
    脑机接口(BCI)对于帮助言语障碍个体具有巨大潜力。利用脑电图(EEG)解码语音尤其具有前景,因为它具有非侵入性。然而,记录通常很短,而且EEG数据的高变异性导致研究人员专注于几十个类别的分类任务。为了评估其在开放词汇设置中对言语神经假肢的实际适用性,我们研究了EEG数据大小与解码准确性之间的关系。我们从单个参与者收集了大量EEG数据(175小时),并使用自我监督表示学习进行了零样本语音片段分类。在整个数据集上训练的模型实现了48%的前1准确率和76%的前10准确率,同时减轻了肌电干扰的影响。相反,当数据仅限于实践中使用的典型量(约10小时)时,前1准确率降至2.5%,揭示了显著的缩放效应。此外,随着训练数据量的增加,EEG潜在表示逐渐展现出口语短语更清晰的时间结构。这表明解码器可以以数据驱动的方式识别语音片段,而无需明确测量单词识别。这项研究是实现基于EEG的语音BCI实际化的重要一步。
  • 图表
  • 解决问题
    本论文旨在研究使用大量的EEG数据在开放词汇场景下进行语音解码的实际应用性,以帮助语言障碍患者。同时,研究者还探讨了训练数据量与解码准确度之间的关系。
  • 关键思路
    论文采用自监督表示学习进行零样本语音片段分类,使用了一个单一参与者的大量EEG数据(175小时),并在减轻肌电干扰的同时,实现了48%的top-1准确度和76%的top-10准确度。研究人员还发现,随着训练数据量的增加,EEG潜在表示逐渐呈现出口语短语的更清晰的时间结构。
  • 其它亮点
    论文使用了一个单一参与者的大量EEG数据进行研究,通过自监督表示学习实现了较高的解码准确度。实验结果表明,训练数据量对解码准确度有显著影响。研究人员还发现,EEG潜在表示逐渐呈现出口语短语的更清晰的时间结构。
  • 相关研究
    在相关研究中,也有一些基于EEG的语音解码研究。例如,论文“EEG-based decoding of speech production using deep recurrent neural networks”和“Speech decoding based on EEG with deep recurrent neural networks and LSTM networks”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论