Meta再放大招！VR新模型登CVPR Oral：像人一样「读」懂语音

Meta的这项研究主要包括三个模型，分别是视觉声觉匹配模型（Visual Acoustic Matching model）、基于视觉的去混响模型（Visually-Informed Dereverberation）、音视频分离模型（Visual Voice）。

首先，视觉声觉匹配模型可将视频中的音频转换为目标环境中的声觉效果，给定目标环境的图像和源音频的波形，模型就可以重新合成音频以匹配目标房间的声学。

然后就是我们基于视觉的音频去混响模型 (VIDA)，它可根据观察到的声音和视觉场景来学习消除混响。

而Visual Voice模型则可跨模型将视频中的音频与视频分离。

内容中包含的图片若涉及版权问题，请及时与我们联系删除