KunquDB: An Attempt for Speaker Verification in the Chinese Opera Scenario

向作者提问

NEW

简介

这项工作旨在促进中文戏曲研究在音乐和语音领域的发展，主要关注克服数据限制。我们介绍了KunquDB，这是一个相对较大规模、注释完备的音视频数据集，包括339位演员和128小时的内容。KunquDB源自《昆曲艺术大典》，通过对话线条精心构建，提供明确的注释，包括角色名称、演员名称、性别信息、声音方式分类，并附有初步的文本转录。KunquDB为以角色为中心的声学研究和与语音相关的研究提供了多样化的基础，包括自动说话人验证（ASV）。除了丰富戏曲研究外，这个数据集也弥合了艺术表达和技术创新之间的差距。我们在中文戏曲中开创了ASV的探索，构建了四个测试试验，考虑了两种不同的声乐方式：舞台话语（ST）和唱歌（S）。有效地实施领域适应方法可以缓解由这些声音方式变化引起的领域不匹配，但作为基准仍有改进的空间。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文的主要目标是促进中国戏曲音乐和语音领域的研究，主要集中在克服数据限制方面。具体而言，论文介绍了KunquDB，这是一个相对较大、注释良好的音频-视觉数据集，包括339个讲话者和128小时的内容。KunquDB来源于《昆曲艺术典籍》（昆曲艺术典籍），通过对话线进行细致的结构化，提供了包括角色名称、讲话者名称、性别信息、声音方式分类在内的明确注释，并附有初步的文本转录。KunquDB为以角色为中心的声学研究和与语音相关的研究进步提供了多种可能性，包括自动说话人验证（ASV）。除了丰富戏曲研究外，这个数据集还弥合了艺术表达和技术创新之间的鸿沟。这篇论文开创了在中国戏曲中探索ASV的先河，我们构建了四个测试试验，考虑了戏曲声音中两种不同的声音方式：舞台语音（ST）和唱歌（S）。实现领域适应方法可以有效地缓解这些声音方式变化引起的领域不匹配问题，但仍有改进空间作为基准。
关键思路

本论文的关键思路是构建了一个相对较大、注释良好的音频-视觉数据集KunquDB，该数据集可用于以角色为中心的声学研究和与语音相关的研究进步，包括自动说话人验证（ASV），并开创了在中国戏曲中探索ASV的先河。
其它亮点

本论文的亮点包括：构建了一个相对较大、注释良好的音频-视觉数据集KunquDB；提供了明确的注释，包括角色名称、讲话者名称、性别信息、声音方式分类等；开创了在中国戏曲中探索ASV的先河；实验考虑了戏曲声音中两种不同的声音方式：舞台语音（ST）和唱歌（S）；使用领域适应方法可以有效地缓解这些声音方式变化引起的领域不匹配问题。
相关研究

在这个领域中，最近的相关研究包括：1）D. Snyder等人的“X-vector和不同领域的语音识别”；2）E. Variani等人的“深度学习说话人识别的新进展”；3）A. Nagrani等人的“说话人识别：从声学到数据驱动的方法”等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问