Look Once to Hear: Target Speech Hearing with Noisy Examples

2024年05月10日
  • 简介
    在拥挤的环境中,人类大脑可以通过先前了解说话人的声音特征来聚焦于目标说话人的话语。我们引入了一种新颖的智能听觉系统,可以实现这种功能,使目标语音听觉忽略所有干扰语音和噪声,只听目标说话人的话。一种朴素的方法是要求提供清晰的语音示例来注册目标说话人。然而,这与听觉应用领域不太对齐,因为在现实场景中获得清晰的示例具有挑战性,这会带来独特的用户界面问题。我们提出了第一个注册界面,佩戴者只需看着目标说话人几秒钟,就可以捕捉到单个、短暂、高噪声的双耳目标说话人示例。这个嘈杂的示例用于注册和随后在干扰说话人和噪声存在的情况下进行语音提取。我们的系统使用不到5秒的嘈杂注册音频实现了7.01 dB的信号质量提高,并且在嵌入式CPU上可以在6.24毫秒内处理8毫秒的音频块。我们的用户研究证明了在之前未见过的室内和室外多径环境中,对于真实世界的静态和移动说话人的泛化。最后,与清晰示例相比,我们的嘈杂示例注册界面不会导致性能下降,同时也很方便和用户友好。总的来说,本文在增强人类听觉感知方面迈出了重要的一步。我们在https://github.com/vb000/LookOnceToHear上提供代码和数据。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在提出一种智能听觉系统,能够在嘈杂的环境中实现对目标说话者的专注听取,而忽略其他干扰性的语音和噪声。同时,解决了如何在没有干净的语音样本的情况下进行目标说话者的注册的问题。
  • 关键思路
    通过让佩戴者在几秒钟内注视目标说话者,从而捕获一段短暂而高噪声的双耳示例,用于目标说话者的注册和随后在干扰说话者和噪声存在的情况下进行语音提取。
  • 其它亮点
    实验结果表明,该系统使用不到5秒的嘈杂的注册音频就能实现7.01 dB的信号质量提高,并且能够在嵌入式CPU上在6.24毫秒内处理8毫秒的音频块。该系统在之前未见过的室内和室外多径环境中展示了对真实世界静态和移动说话者的泛化能力。此外,与干净样本相比,该系统的嘈杂样本注册界面不会导致性能下降,同时也很方便和用户友好。
  • 相关研究
    最近有一些相关研究,如:'Deep Feature Learning for Speech Separation: A Review of Recent Progress','A Review of Speech Enhancement Techniques'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问