- 简介图像和结构化表格是现实世界数据库中必不可少的部分。尽管表格-图像表示学习有望创造新的见解,但由于表格数据通常是异构且不完整的,与图像存在显着的模态差异,因此它仍然是一个具有挑战性的任务。早期的研究主要集中在完整数据场景下的简单模态融合策略,没有考虑缺失数据问题,因此在实践中受到限制。本文提出了TIP,一种新颖的表格-图像预训练框架,用于学习对不完整表格数据具有鲁棒性的多模态表示。具体而言,TIP探讨了一种新颖的自监督学习策略,包括用于处理数据缺失的掩码表格重建任务,以及用于捕捉多模态信息的图像-表格匹配和对比学习目标。此外,TIP提出了一个适用于不完整、异构表格数据的多功能表格编码器和一个用于跨模态表示学习的多模态交互模块。使用自然和医学图像数据集进行了下游多模态分类任务的实验。结果表明,TIP在完整和不完整的数据场景下均优于最先进的监督/自监督图像/多模态算法。我们的代码可在https://github.com/siyi-wind/TIP上获得。
- 图表
- 解决问题本论文旨在解决表格和图像之间的跨模态学习问题,尤其是在表格数据不完整的情况下。
- 关键思路论文提出了一种新的自监督学习策略,包括掩码表格重建任务、图像-表格匹配和对比学习目标,以捕捉多模态信息,并设计了一个适用于不完整、异构表格数据的多功能表格编码器和多模态交互模块。
- 其它亮点论文在自然和医学图像数据集上进行了实验,用于下游多模态分类任务,结果表明TIP在完整和不完整数据场景下均优于现有的监督/自监督图像/多模态算法。该论文提供了开源代码。
- 最近的相关研究包括:《Multimodal Deep Learning: A Survey》、《Multimodal Machine Learning: A Survey and Taxonomy》、《A Survey on Multi-modal Machine Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢