- 简介非语言信号在语音中由韵律编码,并传达了从对话行为到态度和情感的信息。尽管其重要性,但掌握韵律结构的原则仍不足够。本文提供了一个分析框架和技术概念证明,用于对韵律信号进行分类并将其与含义关联起来。该框架解释了多层韵律事件的表面表示。作为实施的第一步,我们提出了一个分类过程,将三个级别的韵律现象分离开来。它依赖于微调预训练的语音识别模型,实现了同时多类别/多标签检测。它可以概括各种自发数据,表现与或优于人类注释。除了标准化韵律的形式化,分离韵律模式可以指导沟通和语音组织理论。一个受欢迎的副产品是对韵律的解释,将增强语音和语言相关技术。
- 图表
- 解决问题本论文试图解决语音中非语言信号(prosody)的解释和分类问题,探讨其与意义的关联。
- 关键思路论文提出了一个分层分析模式,通过微调预训练的语音识别模型,将prosody现象分为三个级别进行多类/多标签检测。
- 其它亮点论文的分类模型在大量自然数据上表现良好,与人工标注结果相当甚至更好。此外,该研究提供了一种标准化的prosody形式化方法,有助于进一步的语音和语言技术研究。
- 近期在prosody领域的相关研究包括:'Prosodylab-Aligner: A tool for forced alignment of laboratory speech','Prosody and speech recognition'等。
沙发等你来抢
去评论
评论
沙发等你来抢