标题:图宾根大学|Where and When: Space-Time Attention for Audio-Visual Explanations(何时何地:视听可解释性的时空注意力机制)

简介:解释多模式决策者的决策要求从这两种方式中确定证据。XAI的最新进展为模型提供了解释在静止图像上进行训练。但是,当涉及建模时在动态世界中的多种感官形式,它仍然存在未充分探索如何揭开神秘的神秘面纱复杂的多模式模型。在这项工作中,我们采取了向前迈出的关键一步,并探索可学的解释视听识别。具体来说,我们建议一本小说揭示协同作用的时空关注网络视听数据在时空上的动态变化。我们的模型能够预测视听视频事件,同时通过定位相关的视觉提示出现,以及预测的声音何时出现发生在视频中。我们以三个听视频事件数据集为基准对模型进行了基准测试,并与多个最新的多模式表示学习者和内部解释模型。实验结果表明与现有模型相比,我们的模型具有明显的优越性能视听事件识别的方法。而且,我们进行了深入的研究以分析可解释性基于扰动的鲁棒性分析的模型模型使用人工注释进行测试和指点游戏。

论文下载:https://arxiv.org/pdf/2105.01517v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除