Multimodal Learning with Transformers: A Survey

Peng Xu, Xiatian Zhu, David A. Clifton
[Tsinghua University & University of Surrey & University of Oxford]

Transformers多模态学习综述

要点:

  • 动机:随着多模态应用和大数据的普及,基于Transformer的多模态学习成为人工智能研究的热点。本文旨在对面向多模态数据的Transformer技术进行全面调研和综述。
  • 方法:通过引入Transformer设计和训练在多模态环境下的应用,对多模态机器学习进行综述。包括Vanilla Transformer、Vision Transformer和多模态Transformer的理论回顾,多模态Transformer应用的回顾,以及共享的挑战和设计等内容。
  • 优势:是对基于Transformer的多模态机器学习领域的首次综述,突出了Transformer在多模态环境下的优势,如可与各种模态兼容,并提供了从几何拓扑角度理解多模态Transformer的内在特点。还提供了对Transformer基础上的多模态机器学习的关键组成部分的数学描述,并讨论了跨模态交互的数学本质和公式化方法。

一句话总结:
综述了基于Transformer的多模态机器学习技术,包括关键问题和创新点,从几何拓扑角度理解Transformer在多模态环境下的优势,并提供了应用和挑战的综述。

https://arxiv.org/abs/2206.06488 
图片
图片
图片