谷歌这篇文章《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》,宣称“攻克”了鸡尾酒会问题。从提供的视频演示来看,可以通过滑动控制只听某一个人说话,非常神奇。

这篇文章本身大概讲了这么一个事:

1.提出一个视觉-听觉联合模型,通过视觉信息来检测环境中谁在说什么并且分离出来;模型包含两个网络来分别分析视频和音频,通过融合层合并特征,最后使用传统的时频掩膜(Time-frequency masking)来分离语音部分; 2.训练过程中,搜集大量(90000)高质量、单说话人且头部位置比较正的视频,选取其中说话声音干净的部分,通过融合不同的视频或者给视频加噪声来创建训练集。

内容中包含的图片若涉及版权问题,请及时与我们联系删除