Look Once to Hear: Target Speech Hearing with Noisy Examples

2024年05月10日
  • 简介
    在拥挤的环境中,人类大脑可以在事先了解说话者的声音特征的情况下,集中注意力听取目标说话者的讲话。我们引入了一种新颖的智能听觉系统,可以实现这种功能,使目标说话者的讲话不受干扰的说话和噪声的影响。一个朴素的方法是需要一个干净的语音样本来注册目标说话者,但这与可穿戴应用领域的需求不太相符,因为在现实场景中获取干净的样本是具有挑战性的,这会造成独特的用户界面问题。我们提出了第一个注册界面,用户只需看着目标说话者几秒钟,就可以捕捉到一个单一的、短暂的、高噪声的、双耳的目标说话者示例。这个嘈杂的示例用于注册和在干扰说话者和噪声存在的情况下进行后续的语音提取。我们的系统使用不到5秒的嘈杂注册音频实现了7.01 dB的信号质量改进,并且可以在嵌入式CPU上在6.24毫秒内处理8毫秒的音频块。我们的用户研究证明了在以前未见的室内和室外多径环境中,对真实世界的静态和移动说话者的泛化能力。最后,我们的嘈杂示例注册界面不会与干净示例相比导致性能下降,同时还方便用户使用。总之,本文在增强人类听觉感知方面迈出了重要的一步。我们在https://github.com/vb000/LookOnceToHear上提供代码和数据。
  • 解决问题
    论文旨在解决在嘈杂环境中识别目标说话人的问题,而不受干扰的影响。
  • 关键思路
    通过一个新的智能听觉系统,利用少量嘈杂的语音样本进行说话人的注册,并实现在嘈杂环境中提取目标说话人的语音。
  • 其它亮点
    论文提出的智能听觉系统可以在不到5秒的时间内使用少量嘈杂的样本进行说话人注册,并在嘈杂环境中提取目标说话人的语音,取得了7.01 dB的信号质量提升。实验结果表明该系统可以泛化到室内和室外多径环境下的静态和移动说话人。论文提供了开源代码和数据集。
  • 相关研究
    近期的相关研究包括:'Deep Learning for Target Speaker Extraction in Adverse Multi-Speaker Conditions','A Survey of Speech Enhancement: Front-End, Back-End, and Combined Approaches','Robust Speaker Recognition in Noisy Environments Using Long-Short-Term Memory Networks'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论