博士论文 | UC Berkeley 2025 | 人工智能驱动的语音神经假体用于恢复自然交流和具身认知 107页

我们能否重建大脑（brain）与声音（voice）之间的桥梁，从而帮助瘫痪患者（people with paralysis）恢复人际沟通能力？本论文概述了我们用于帮助声带麻痹患者恢复言语能力的转化系统。

语音神经假体（Speech neuroprostheses）有望帮助瘫痪患者恢复沟通和肢体功能，但实现自然流畅的语速和表现力一直是个难题。本论文提出的技术进步使一位患有严重肢体和声带麻痹的临床试验参与者在18年后首次“重新开口说话”。该参与者使用人工智能“脑到声”解码器（AI "brain-to-voice" decoder）恢复了受伤前的声音。我们利用参与者语音皮层的高密度表面记录，实现了高性能、大词汇量、实时解码，并支持三种互补的语音相关输出模式：文本、语音音频和面部虚拟形象动画。我们利用机器学习在自动语音识别和合成方面的最新进展，训练并评估了深度学习模型。这些模型基于参与者尝试无声说话时收集的神经数据，最终实现了接近自然对话语速的解码速度。我们还演示了如何通过参与者的大脑控制高保真“数字会说话的化身”，来控制用于言语和非言语交流手势的虚拟口面部运动。

基于上述高性能脑语音解码（brain-to-speech decoding）方面的进展，我概述了我们的研究成果，这些成果展示了低延迟、连续流式脑语音合成，并以 80 毫秒为增量进行神经解码。循环神经网络转换器模型展现了隐式语音检测能力，并且可以无限期地连续解码语音，从而实现解码器的不间断使用并进一步提高速度。我们的框架也成功地推广到其他无声语音接口，包括单细胞记录和肌电图。

本论文的研究成果共同提出了一种多模态、低延迟的言语神经假体方法，该方法有望为严重瘫痪患者恢复完整的、具身的交流能力。