入门语音分离，从鸡尾酒问题开始！

谷歌这篇文章《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》，宣称“攻克”了鸡尾酒会问题。从提供的视频演示来看，可以通过滑动控制只听某一个人说话，非常神奇。

这篇文章本身大概讲了这么一个事：

1.提出一个视觉-听觉联合模型，通过视觉信息来检测环境中谁在说什么并且分离出来；模型包含两个网络来分别分析视频和音频，通过融合层合并特征，最后使用传统的时频掩膜（Time-frequency masking）来分离语音部分； 2.训练过程中，搜集大量（90000）高质量、单说话人且头部位置比较正的视频，选取其中说话声音干净的部分，通过融合不同的视频或者给视频加噪声来创建训练集。