Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

即使有可靠的OCR模型,要回答需要在图片中阅读文字的问题,也对现有模型构成了一个挑战。其中最困难的是图片中经常有罕见字,多义字。为了克服这个困难,本文的模型利用了图片中多个模态的丰富信息来推测图片中文字的语义。有了这样的直观感受,本文设计了一个新的VQA模型——多模态图神经网络(MM-GNN)。它会首先构建一个具有三个子图的特征节点图,分别描述视觉,文字,和数字模态。此后,本文设计了三个融合子,在子图间或子图内进行信息传递。增强过后的节点特征被证明可以很好地帮助下游任务,该模型在ST-VQA和Facebook的Text-VQA上都取得了SOTA的成绩。

内容中包含的图片若涉及版权问题,请及时与我们联系删除