Who Finds This Voice Attractive? A Large-Scale Experiment Using In-the-Wild Data

2024年07月05日
  • 简介
    本文介绍了CocoNut-Humoresque,这是一个开源的大规模语音喜好度语料库,包括语音片段及其每个听众的喜好度评分。评估语音喜好度对于设计语音系统中的偏好声音(如对话或公告系统)至关重要。在本研究中,我们让885名听众评价了各种演讲者的1800个语音片段的喜好度。在构建语料库时,我们还收集了多个演讲者属性:性别、年龄和最喜欢的YouTube视频。因此,该语料库能够在演讲者和听众因素方面进行大规模的统计分析。本文描述了构建方法和初步数据分析,以揭示语音喜好度中的性别和年龄偏见。此外,还研究了喜好度与两个声学特征——基频和给定话语的x-向量之间的关系。
  • 图表
  • 解决问题
    本论文旨在构建一个开源的大规模语音喜好度语料库,以便评估语音系统中的语音喜好度。研究人员收集了1800个语音片段,让885个听众对其进行喜好度评分,并收集了多个说话者属性,例如性别、年龄和喜欢的YouTube视频,以便进行大规模的统计分析。
  • 关键思路
    通过构建一个包含说话者和听众因素的语音喜好度语料库,可以更好地了解语音喜好度的性别和年龄偏见,并探索基本频率和给定话语的x-向量等声学特征与喜好度之间的关系。
  • 其它亮点
    该论文的亮点包括构建了一个大规模的语音喜好度语料库,研究了语音喜好度的性别和年龄偏见,以及声学特征与喜好度之间的关系。此外,还收集了多个说话者属性,并进行了大规模的统计分析。论文的数据集和代码也已经开源。
  • 相关研究
    在这个领域中,最近的一些相关研究包括:1.``A Dataset and Taxonomy for Urban Sound Research'';2.``The VoxCeleb Speaker Recognition Challenge 2019'';3.``The TIMIT Acoustic-Phonetic Continuous Speech Corpus''。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论