A Cross-Modal Approach to Silent Speech with LLM-Enhanced Recognition

2024年03月02日
  • 简介
    Silent Speech Interfaces(SSIs)提供了一种无需侵入性的选择,用于进行无声语音交流,相比于脑机接口。我们引入了Multimodal Orofacial Neural Audio(MONA)系统,该系统通过新颖的损失函数——交叉对比(crossCon)和监督时序对比(supTcon)来利用交叉模态对齐,以训练具有共享潜在表示的多模态模型。该架构使得可以使用仅包含音频的数据集(例如LibriSpeech)来提高无声语音识别的准确性。此外,我们引入了Large Language Model(LLM)Integrated Scoring Adjustment(LISA),显著提高了识别准确性。MONA LISA共同将无声语音在开放词汇表上的Gaddy(2020)基准数据集的词错误率(WER)从28.8%降低到12.2%。对于声音肌电图(vocal EMG)记录,我们的方法将最新技术的WER从23.3%降低到3.7%。在Brain-to-Text 2024比赛中,LISA表现最佳,将最高WER从9.8%降低到8.9%。据我们所知,这项工作是首次在开放词汇表上实现了低于15% WER 的无需侵入性的无声语音识别,这表明SSIs可以成为自动语音识别(ASR)的可行替代方案。我们的工作不仅缩小了无声和有声语音之间的性能差距,而且在嘈杂和数据有限的情况下展示了交叉模态方法的新可能性,从而展示了人机交互的潜力。
  • 图表
  • 解决问题
    论文旨在提供一种非侵入性的静默语音识别解决方案,以解决当前大多数语音识别技术需要使用麦克风的问题。同时,也试图缩小静默和发声语音识别之间的性能差距。
  • 关键思路
    论文提出了一种名为MONA的多模态口面神经音频系统,通过新的损失函数(crossCon和supTcon)实现跨模态对齐,从而训练具有共享潜在表示的多模态模型。该架构还利用了仅使用音频数据集(如LibriSpeech)来提高静默语音识别的准确性。此外,引入了大型语言模型(LLM)集成评分调整(LISA)来显著提高识别准确性。
  • 其它亮点
    实验结果表明,MONA LISA将静默语音识别的单词错误率(WER)从28.8%降至12.2%,并将EMG记录的静默语音识别的WER从23.3%降至3.7%。在Brain-to-Text 2024竞赛中,LISA表现最佳,将顶部WER从9.8%降至8.9%。这是首次实现非侵入性静默语音识别在开放词汇量上达到15% WER的情况,证明了SSIs可以成为自动语音识别(ASR)的可行替代方案。
  • 相关研究
    最近的相关研究包括:1. A Survey on Silent Speech Interfaces and Their Applications; 2. A Deep Learning Approach to Silent Speech Recognition Based on Lip Motion and Surface Electromyography; 3. A Silent Speech Interface for Mandarin Based on Ultrasound and Surface Electromyography.
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论