StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Self-supervised Learning Models

简介

我们提出了StyleCap方法，用于生成自然语言描述语音中出现的说话风格。虽然传统的语音非语言信息识别技术大多集中于预定义标签的分类或强度估计，但它们无法以可解释的方式提供识别结果的推理。StyleCap是生成语音风格提示的端到端方法的第一步，即自动语音风格字幕。StyleCap使用语音和自然语言描述的成对数据进行训练。我们训练神经网络将语音表示向量转换为前缀向量，这些前缀向量被馈入基于大型语言模型（LLM）的文本解码器中。我们探索适合这项新任务的适当文本解码器和语音特征表示。实验结果表明，我们的StyleCap利用更丰富的LLM进行文本解码器、语音自监督学习（SSL）特征和句子重述增强，提高了生成的说话风格字幕的准确性和多样性。我们公开了由我们的StyleCap生成的说话风格字幕样本。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决自然语言描述说话风格的问题，通过将语音转换为自然语言描述，实现自动说话风格字幕生成。
关键思路

通过训练神经网络将语音表示向量转换为前缀向量，并将其输入到基于大型语言模型的文本解码器中，以生成自然语言描述。
其它亮点

论文使用了自监督学习和句子重述增强等技术，提高了生成的说话风格字幕的准确性和多样性。实验结果表明，StyleCap能够生成高质量的说话风格字幕。此外，论文还公开了生成的样本。
相关研究

在这个领域中，最近的相关研究包括：1. "Automatic Paralinguistic Feature Extraction and Emotion Recognition from Speech" 2. "Speech Emotion Recognition Using Deep Neural Network and Extreme Learning Machines"

StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Self-supervised Learning Models

提问交流

提问交流