TI-ASU: Toward Robust Automatic Speech Understanding through Text-to-speech Imputation Against Missing Speech Modality

简介

自动语音理解（ASU）旨在实现类似于人类的语音理解，从语音和语言（文本）内容中提供细致的意图、情感、情绪和内容理解。通常，训练强大的ASU模型需要大规模、高质量的语音和相关转录数据。然而，由于隐私等问题，往往很难收集或使用语音数据来训练ASU。为了解决这种缺失语音（音频）模态的情况，我们提出了TI-ASU，使用预训练的文本到语音模型来填补缺失的语音。我们在各种缺失比例、多模态和单模态设置以及使用LLMs的情况下进行了大量实验，评估了TI-ASU的效果。我们的研究结果表明，即使训练语音缺失高达95%，TI-ASU仍然能够大大提高ASU的效果。此外，我们还展示了TI-ASU适应了丢失训练的情况，提高了模型在推断期间处理缺失语音的鲁棒性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决如何在缺失语音数据的情况下训练鲁棒的ASU模型的问题。
关键思路

本论文提出了一种使用预训练的文本到语音模型来填补缺失语音的方法，从而提高ASU模型的性能。
其它亮点

实验结果表明，即使缺失了高达95%的训练语音数据，使用TI-ASU方法也能够显著提高ASU模型的性能。此外，TI-ASU还能够适应dropout训练，提高模型的鲁棒性。
相关研究

与本论文相关的研究包括语音识别、文本到语音合成等领域的研究。其中一些论文包括《Deep Speech 2: End-to-End Speech Recognition in English and Mandarin》、《Neural Speech Synthesis with Transformer Network》等。

TI-ASU: Toward Robust Automatic Speech Understanding through Text-to-speech Imputation Against Missing Speech Modality

提问交流

提问交流