标题:亚马逊、威斯康星大学麦迪逊分校|A First Look: Towards Explainable TextVQA Models via Visual and Textual Explanations(初步了解:基于视觉和文本解释性的可解释的文本视频问答模型)
简介:可解释的深度学习模型在许多情况下都是有利的。以前的工作大部分通过事后方法提供单模态解释,而不是原始系统的一部分设计。解释机制也忽略图像中有用的文字信息。在本文中,我们提出了MTXNet,这是一种端到端可训练的多模式体系结构,用于生成多模态解释,其中重点是在图片中的文字上。我们提出一个全新数据集TextVQA-X,包含基本事实视觉和多参考文字说明可以用于训练和评估。然后我们定量地表明具有多模态解释的培训补充了模型性能,并超越了中的单模基线最高7%的CIDEr得分和2%IoU得分。更重要的是,我们证明多模式解释与人类的解释是一致的,帮助证明模型的决策合理,并提供有用的见解以帮助诊断错误的预测。最后,我们描述了一个实际的电子商务应用程序,用于使用生成的多模解释。
论文链接:https://arxiv.org/pdf/2105.02626.pdf
数据集:https://github.com/amzn/explainable-text-vqa

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢