AV-RIR: Audio-Visual Room Impulse Response Estimation

2023年11月30日
  • 简介
    准确估计房间脉冲响应(RIR)对于语音处理和AR/VR应用非常重要,因为它能够捕捉环境的声学特性。我们提出了AV-RIR,一种新颖的多模态多任务学习方法,可以从给定的混响语音信号和其对应环境的视觉线索准确估计RIR。AV-RIR建立在一种新颖的基于神经编解码器的架构之上,可以有效地捕捉环境的几何形状和材料特性,并通过使用多任务学习将语音去混响作为辅助任务来解决。我们还提出了Geo-Mat特征,将材料信息增加到视觉线索中,并通过图像到RIR检索改进了估计RIR中的后延反射成分,提高了86%。实证结果表明,AV-RIR在RIR估计的各种声学指标上实现了36% - 63%的改进,比之前的仅音频或仅视觉方法表现更好。此外,它在人类评估中也获得了更高的偏好得分。作为辅助效益,AV-RIR的去混响语音在各种口语处理任务中表现出与最先进技术相当的性能,并在真实世界的AVSpeech数据集中优于混响时间误差得分。可以在https://www.youtube.com/watch?v=tTsKhviukAE找到合成的混响语音和增强语音的定性示例。
  • 图表
  • 解决问题
    AV-RIR旨在通过多模态多任务学习,从给定的混响语音信号和其相应环境的视觉线索中准确估计房间脉冲响应(RIR),以提高语音处理和AR/VR应用的效果。
  • 关键思路
    AV-RIR基于一种新颖的神经编解码器架构,通过多任务学习,有效地捕捉环境几何和材料属性,并将语音去混响作为辅助任务解决。同时,提出了Geo-Mat特征和CRIP方法,可以将材料信息融入视觉线索中,并通过图像到RIR检索来提高估计的RIR的后期混响成分。
  • 其它亮点
    AV-RIR在RIR估计的各种声学指标上实现了36%-63%的改进,比先前的仅使用音频或仅使用视觉的方法更具量化优势,并在人类评估中获得了更高的偏好得分。此外,AV-RIR的去混响语音在各种口语处理任务中表现出与最先进技术相当的性能,并在真实世界的AVSpeech数据集中优于混响时间误差得分。
  • 相关研究
    最近的相关研究包括:1. A Survey of Room Impulse Response Simulation and Measurement Techniques; 2. Joint Acoustic Room Impulse Response Estimation and Dereverberation Using a Single Microphone; 3. Deep Learning for Acoustic Echo and Noise Cancellation: A Review。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论