Meta的这项研究主要包括三个模型,分别是视觉声觉匹配模型(Visual Acoustic Matching model)、基于视觉的去混响模型(Visually-Informed Dereverberation)、音视频分离模型(Visual Voice)。

首先,视觉声觉匹配模型可将视频中的音频转换为目标环境中的声觉效果,给定目标环境的图像和源音频的波形,模型就可以重新合成音频以匹配目标房间的声学。
 
然后就是我们基于视觉的音频去混响模型 (VIDA),它可根据观察到的声音和视觉场景来学习消除混响。
 
而Visual Voice模型则可跨模型将视频中的音频与视频分离。
论文地址:https://arxiv.org/pdf/2202.06875.pdf
 

内容中包含的图片若涉及版权问题,请及时与我们联系删除