- 简介神经编解码器模型可以降低语音数据传输延迟,并作为语音语言模型(语音LM)的基础分词器。在编解码器中保留情感信息对于有效的沟通和上下文理解至关重要。然而,现有编解码器中缺乏情感损失的研究。本文使用主观和客观方法在情感数据集(如IEMOCAP)上评估神经编解码器和传统编解码器。我们的研究确定了在不同比特率情况下最好保留情感信息的编解码器。我们发现,用英文和中文数据训练编解码器模型在保留中文情感信息方面取得了有限的成功。此外,通过这些编解码器重新合成语音会降低语音情感识别(SER)的性能,特别是对于悲伤、抑郁、恐惧和厌恶等情绪。人类听觉测试证实了这些发现。这项工作指导未来的语音技术发展,以确保新的编解码器在语音中保持情感信息的完整性。
-
- 图表
- 解决问题论文旨在评估神经编解码模型和传统编解码模型对情感信息的保留能力,并探讨语音情感识别的表现受到影响的程度。
- 关键思路论文使用主观和客观方法对神经编解码模型和传统编解码模型进行评估,发现训练同时包含英文和中文数据的编解码模型对于中文情感信息的保留能力较差,而通过这些编解码模型重新合成语音会降低语音情感识别的表现。
- 其它亮点论文使用IEMOCAP等数据集进行实验,并进行了人类听觉测试。研究结果表明,情感信息的保留对于有效沟通和上下文理解至关重要。研究还指导了未来语音技术的发展,以确保新的编解码模型能够保持语音中情感信息的完整性。
- 最近的相关研究包括:1.《Speech Emotion Recognition: Recent Advances and Open Challenges》;2.《Investigation of Acoustic Features and Classification Methods for Speech Emotion Recognition》;3.《Deep Learning for Emotion Recognition on Small Datasets Using Transfer Learning》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流