Hyperbolic Distance-Based Speech Separation

2024年01月07日
  • 简介
    在这项工作中,我们探索了在双曲流形上定义的分层基于距离的语音分离任务。基于最近在非欧几里得空间中执行的音频相关任务的出现,我们建议利用Poincaré球来有效地揭示复杂说话者混合中固有的分层结构。我们设计了两组实验,其中基于距离的父声音类别,即“近”和“远”,每个类别可以包含最多两个或三个说话者(即孩子)。我们展示了我们的双曲方法适用于从问题定义中揭示分层结构,从而实现了改进的子级分离。我们进一步展示了超几何确定性概念(即到球心的距离)与声学语义之间的明显相关性,例如说话者密度,源位置和麦克风到说话者的距离。
  • 图表
  • 解决问题
    本文探讨在双曲空间中进行层次距离语音分离的任务。该方法旨在揭示复杂说话者混合中固有的层次结构。
  • 关键思路
    本文提出使用Poincaré球来揭示层次结构,从而实现更好的子级分离。结果表明,双曲方法适用于从问题定义中揭示层次结构,从而实现改进的子级分离。
  • 其它亮点
    本文设计了两组实验,展示了双曲方法在揭示层次结构方面的优越性,并与声学语义之间的相关性建立了清晰的联系。本文使用的数据集和开源代码也值得关注。
  • 相关研究
    最近的相关研究包括:《Learning with Hyperbolic Geometry》、《Graph Convolutional Networks in the Poincaré Ball》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论