The PESQetarian: On the Relevance of Goodhart's Law for Speech Enhancement

2024年06月05日
  • 简介
    本文旨在说明过度拟合语音增强模型到用于评估的度量标准可能会带来风险,因此研究人员通常专注于根据特定仪器度量标准提高性能。然而,当相同的度量标准用于损失函数来优化模型时,可能会对该度量标准无法看到的方面产生负面影响。为此,我们引入了利用广泛使用的PESQ度量的增强模型。我们的“PESQetarian”模型在VB-DMD上达到3.82 PESQ的得分,但在听觉实验中得分非常低。虽然获得的PESQ值3.82表明在VB-DMD基准测试中达到了“最先进”的PESQ性能,但我们的例子表明,当优化相应度量标准时,对同一度量标准的孤立评估可能会误导。相反,应该在评估中包括其他度量标准,并通过听觉确认结果的性能预测。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图验证在优化语音增强模型时,仅基于特定指标进行优化可能会导致过度拟合的风险。
  • 关键思路
    论文介绍了利用PESQ指标进行语音增强的模型,并发现仅基于PESQ指标优化的模型在听觉实验中表现不佳,提示仅使用单一指标进行优化容易导致过度拟合。
  • 其它亮点
    论文的实验结果表明,仅基于PESQ指标进行优化的模型在听觉实验中表现不佳,提示仅使用单一指标进行优化容易导致过度拟合。因此,论文建议在评估语音增强模型时应该包括其他指标,并通过听觉实验来确认模型的性能。论文使用了VB-DMD数据集,并提出了一种名为“PESQetarian”的模型。论文提出的观点对于语音增强模型的优化具有重要的参考价值。
  • 相关研究
    与该论文相关的研究包括利用其他评估指标进行语音增强模型优化的研究,如STOI、SAR等。其中一些研究包括:“A Perceptually Motivated Objective Function for Speech Enhancement”和“Deep Complex U-Net for Speech Enhancement”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问