VAE-based Phoneme Alignment Using Gradient Annealing and SSL Acoustic Features

简介

本文提出了一个旨在进行语音分析和视频内容创作的准确音素对齐模型。我们提出了一种基于变分自编码器（VAE）的对齐模型，其中使用编码的声学和语言嵌入以无监督的方式搜索可能的路径。我们的模型基于一个TTS对齐（OTA）并扩展以获得音素边界。具体而言，我们结合了VAE架构以保持嵌入和输入之间的一致性，应用渐变退火来避免训练期间的局部最优，并引入了基于自监督学习（SSL）的声学特征输入和状态级语言单元，以利用丰富和详细的信息。实验结果表明，与传统的OTA模型、基于CTC的分割模型和广泛使用的工具MFA相比，所提出的模型生成的音素边界更接近注释的边界。
图表
解决问题

论文旨在提出一种准确的音素对齐模型，以用于语音分析和视频内容创建。该模型通过编码的声学和语言嵌入在无监督的情况下搜索可能的路径，以获取音素边界。
关键思路

论文提出了一种基于变分自编码器（VAE）的对齐模型，该模型在训练过程中应用梯度退火以避免局部最优，并引入自监督学习（SSL）的声学特征输入和状态级语言单元，以利用丰富的详细信息。
其它亮点

论文使用了开源的数据集，并与OTA模型、CTC模型和MFA工具进行了比较实验，结果表明该模型生成的音素边界与注释的边界更接近。值得关注的是，该模型的应用可以扩展到语音合成、语音识别和语音转换等领域。
相关研究

最近的相关研究包括《Phoneme Recognition using Deep Bidirectional Long Short-Term Memory Recurrent Neural Networks》、《A comparison of sequence-to-sequence models for speech-to-text transcription》等。

VAE-based Phoneme Alignment Using Gradient Annealing and SSL Acoustic Features

评论