- 简介长文档分类(LDC)近来引起了相当大的关注。然而,长文档中的多模态数据,如文本和图像,并没有被有效地利用。先前在这个领域的研究尝试将文本和图像整合到文档相关任务中,但是它们只关注于短文本序列和页面图像。如何对具有分层结构文本和嵌入图像的长文档进行分类,是一个新问题,面临着多模态表示难题。在本文中,我们提出了一种新的方法,称为分层多模态变压器(HMT),用于跨模态长文档分类。HMT以分层方式对图像和文本进行多模态特征交互和融合。我们的方法使用多模态变压器和动态多尺度多模态变压器来模拟图像特征、章节和句子特征之间的复杂关系。此外,我们引入了一种新的交互策略,称为动态掩码传递模块,通过在它们之间传播特征来整合这两个变压器。为了验证我们的方法,我们在两个新创建的和两个公开可用的多模态长文档数据集上进行了跨模态LDC实验,结果表明,所提出的HMT优于最先进的单模态和多模态方法。
- 图表
- 解决问题本论文旨在解决长文档分类中多模态数据(文本和图像)的有效利用问题,提出了一种新的分层多模态Transformer模型,用于跨模态长文档分类。
- 关键思路本论文的关键思路是使用分层多模态Transformer模型进行文本和图像的交互和融合,并引入动态掩码传输模块来整合这两个Transformer模型。
- 其它亮点本论文提出的分层多模态Transformer模型在两个新创建的和两个公开可用的多模态长文档数据集上进行了实验,结果表明该方法优于现有的单模态和多模态方法。
- 近期的相关研究包括使用注意力机制来整合文本和图像信息的方法,以及使用深度学习模型进行长文档分类的方法。例如,"Attention-Based Multi-Modal Fusion for Text and Image Document Classification"和"Deep Learning for Long Documents Classification: A Comparative Analysis"。
沙发等你来抢
去评论
评论
沙发等你来抢