Scaling Law in Neural Data: Non-Invasive Speech Decoding with 175 Hours of EEG Data

向作者提问

NEW

简介

脑机接口（BCI）对于帮助言语障碍个体具有巨大潜力。利用脑电图（EEG）解码语音尤其具有前景，因为它具有非侵入性。然而，记录通常很短，而且EEG数据的高变异性导致研究人员专注于几十个类别的分类任务。为了评估其在开放词汇设置中对言语神经假肢的实际适用性，我们研究了EEG数据大小与解码准确性之间的关系。我们从单个参与者收集了大量EEG数据（175小时），并使用自我监督表示学习进行了零样本语音片段分类。在整个数据集上训练的模型实现了48％的前1准确率和76％的前10准确率，同时减轻了肌电干扰的影响。相反，当数据仅限于实践中使用的典型量（约10小时）时，前1准确率降至2.5％，揭示了显著的缩放效应。此外，随着训练数据量的增加，EEG潜在表示逐渐展现出口语短语更清晰的时间结构。这表明解码器可以以数据驱动的方式识别语音片段，而无需明确测量单词识别。这项研究是实现基于EEG的语音BCI实际化的重要一步。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在研究使用大量的EEG数据在开放词汇场景下进行语音解码的实际应用性，以帮助语言障碍患者。同时，研究者还探讨了训练数据量与解码准确度之间的关系。
关键思路

论文采用自监督表示学习进行零样本语音片段分类，使用了一个单一参与者的大量EEG数据（175小时），并在减轻肌电干扰的同时，实现了48％的top-1准确度和76％的top-10准确度。研究人员还发现，随着训练数据量的增加，EEG潜在表示逐渐呈现出口语短语的更清晰的时间结构。
其它亮点

论文使用了一个单一参与者的大量EEG数据进行研究，通过自监督表示学习实现了较高的解码准确度。实验结果表明，训练数据量对解码准确度有显著影响。研究人员还发现，EEG潜在表示逐渐呈现出口语短语的更清晰的时间结构。
相关研究

在相关研究中，也有一些基于EEG的语音解码研究。例如，论文“EEG-based decoding of speech production using deep recurrent neural networks”和“Speech decoding based on EEG with deep recurrent neural networks and LSTM networks”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问