Exploring the Benefits of Tokenization of Discrete Acoustic Units

Avihu Dekel ,
Raul Fernandez
2024年06月08日
  • 简介
    本文展示了将语音学单位进行分词的优势,这种算法将基础词汇单元合并成更大、变化率更高的单元,在自然语言处理任务中已成为标准。然而,当词汇由音素或离散声学单元(DAU)组成时,这个想法却被大多数人忽视了。由于离散语言建模技术的成功,DAU作为一种基于音频的表示方式正在发挥越来越重要的作用。本文展示了对音素单位和DAU进行分词的优势,并在三个预测任务中进行了展示:字素到音素、字素到DAU、以及使用DAU语言建模进行无监督语音生成。我们证明了分词可以在所有三个任务中显著提高性能,以及训练和推理速度。我们还提供了理论洞见,以解释观察到的优越性能。
  • 图表
  • 解决问题
    本论文旨在展示在语音处理中,对音素或离散声学单元(DAUs)进行分词处理的优势,并在三个任务中进行验证:字素到音素的转换、字素到DAUs的转换以及使用DAU语言建模的无监督语音生成。
  • 关键思路
    本论文的关键思路是将语音处理中的分词算法应用于音素或DAUs上,并证明这种方法可以显著提高性能、训练和推理速度。
  • 其它亮点
    本论文的实验表明,分词可以在三个任务中提高性能,包括字素到音素的转换、字素到DAUs的转换以及使用DAU语言建模的无监督语音生成。此外,论文还提供了理论洞见来解释观察到的优越性能。论文使用的数据集是公开的,可以帮助其他研究者进一步研究这个领域。
  • 相关研究
    在最近的相关研究中,也有一些研究关注于语音处理中的分词算法。例如,标题为“基于卷积神经网络的语音分词”的论文探讨了使用卷积神经网络进行语音分词的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论