- 简介文本数据通常被用作增强语音情感识别(SER)性能和可靠性的主要输入。然而,在大多数研究中,依赖于人工转录的文本阻碍了实用SER系统的发展,造成了实验室研究与自动语音识别(ASR)作为文本来源的实际场景之间的差距。因此,本研究在著名的语料库IEMOCAP、CMU-MOSI和MSP-Podcast上使用不同词错误率(WER)的ASR转录对SER性能进行基准测试。我们的评估包括文本和双模态SER,并采用多种融合技术,旨在进行全面分析,揭示当前SER研究面临的新发现和挑战。此外,我们提出了一个统一的ASR错误鲁棒框架,集成了ASR错误校正和模态门控融合,实现了比最佳表现ASR转录更低的WER和更高的SER结果。这项研究有望为SER与ASR辅助技术提供深入洞察,特别是对于实际应用。
- 图表
- 解决问题本论文旨在解决语音情感识别中使用人工转录文本的问题,通过使用自动语音识别(ASR)转录文本来提高情感识别的性能和可靠性。
- 关键思路使用ASR转录文本来提高情感识别性能和可靠性,并提出一种统一的ASR错误鲁棒框架,该框架集成了ASR错误校正和模态门控融合,相对于最佳表现的ASR转录文本,实现了更低的WER和更高的SER结果。
- 其它亮点本论文使用三个著名的数据集(IEMOCAP,CMU-MOSI和MSP-Podcast)对文本情感识别进行了评估,包括文本情感识别和双模情感识别。实验结果表明,使用ASR转录文本可以提高情感识别性能。此外,本论文提出的统一ASR错误鲁棒框架可以在ASR错误校正和模态门控融合方面实现更好的结果。
- 最近的相关研究包括使用深度学习方法进行情感识别,以及使用多模态数据进行情感识别。相关论文包括:“A Deep Learning Approach to Unsupervised Ensemble Learning of Emotional Speech Recognition”和“Multimodal Sentiment Analysis using Deep Learning: An Overview”。
沙发等你来抢
去评论
评论
沙发等你来抢