- 简介深度神经网络越来越成功,但由于它们的黑盒性质,解释性和信任方面面临挑战。虽然在视觉和语言领域已经广泛探索了解释技术,但音频领域的可解释性受到了限制,主要集中在事后解释上。本文利用最近提出的无注意力聚焦调制网络(FocalNets),首次将其应用于环境声音分类任务,解决了音频领域设计性可解释性的问题。我们在流行的ESC-50数据集上评估了FocalNets的可解释性属性。我们的方法在准确性和可解释性方面都优于同样大小的视觉变换器。此外,它与PIQ竞争,后者是专门设计用于音频领域的事后解释方法。
- 图表
- 解决问题本文旨在解决深度神经网络黑盒特性带来的解释性和可信度问题,提出了一种利用注意力机制的FocalNets方法,以实现音频领域的可解释性。
- 关键思路本文提出了一种注意力机制的FocalNets方法,通过设计可解释性,实现音频分类任务。相比于当前领域的研究,本文的方法更加注重可解释性。
- 其它亮点本文在ESC-50数据集上评估了FocalNets的可解释性,相比于类似大小的视觉变压器,FocalNets在准确性和可解释性上表现更好。此外,本文的方法在音频领域的可解释性解决方案PIQ上也有一定竞争力。
- 在音频领域的可解释性方面,目前主要集中在后续解释方案上。近期的相关研究包括《Towards Explainable AI: A Systematic Review of Explainable Artificial Intelligence Research》、《Interpretability in Audio Classification: a Survey》等。
沙发等你来抢
去评论
评论
沙发等你来抢