标题：亚马逊、威斯康星大学麦迪逊分校|A First Look: Towards Explainable TextVQA Models via Visual and Textual Explanations（初步了解：基于视觉和文本解释性的可解释的文本视频问答模型）

简介：可解释的深度学习模型在许多情况下都是有利的。以前的工作大部分通过事后方法提供单模态解释，而不是原始系统的一部分设计。解释机制也忽略图像中有用的文字信息。在本文中，我们提出了MTXNet，这是一种端到端可训练的多模式体系结构，用于生成多模态解释，其中重点是在图片中的文字上。我们提出一个全新数据集TextVQA-X，包含基本事实视觉和多参考文字说明可以用于训练和评估。然后我们定量地表明具有多模态解释的培训补充了模型性能，并超越了中的单模基线最高7％的CIDEr得分和2％IoU得分。更重要的是，我们证明多模式解释与人类的解释是一致的，帮助证明模型的决策合理，并提供有用的见解以帮助诊断错误的预测。最后，我们描述了一个实际的电子商务应用程序，用于使用生成的多模解释。