Speech After Gender: A Trans-Feminine Perspective on Next Steps for Speech Science and Technology

2024年07月09日
  • 简介
    作为声音改变的专家,跨性别女性声音教师具有独特的声音观点,这些观点挑战了当前对说话者身份的理解。为了证明这一点,我们提出了多功能声音数据集(VVD),其中包括三个说话者沿着性别轴修改其声音。VVD表明,基于性别的分类概念和对声音质地静态理解的当前说话者建模方法未能考虑到声道的灵活性。利用公开可用的说话者嵌入,我们证明性别分类系统对声音修改非常敏感,而说话者验证系统在声音修改变得更加激烈时无法识别声音来自同一说话者。作为超越分类和静态说话者身份概念的一条途径,我们建议建模声音质地的个体特征,如音调、共鸣和重量。
  • 图表
  • 解决问题
    该论文旨在展示现有的基于类别性别和静态声音纹理理解的说话人建模方法无法解释发音器的灵活性,提出了建模声音纹理中个体特征的方法。
  • 关键思路
    该论文提出了建模个体声音纹理特征(如音高、共鸣和重量)的方法,以超越基于类别性别和静态声音纹理的说话人身份认知。
  • 其它亮点
    该论文使用了Versatile Voice Dataset(VVD)数据集,展示了当前的说话人建模方法无法解释发音器的灵活性,并且声音修改对性别分类和说话人验证系统的影响。该论文的方法可以为跨性别人群提供更好的语音转换服务。该论文开源了数据集和代码。
  • 相关研究
    最近的相关研究包括:“Deep Speaker Embeddings for Diarization and Verification”和“Speaker Recognition on the Raw Waveform Using Convolutional Neural Networks”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论