图片

在过去的几年中,在自然语言处理(NLP)和计算机视觉(CV)中使用的方法取得了一些突破。除了这些对单模态模型的改进之外,大规模的多模态方法已经成为一个非常活跃的研究领域。

这本书是一个研讨会的结果,在会上,我们回顾了多模态方法,并试图创建一个该领域的坚实概述,从深度学习的两个子领域的当前最先进的方法开始。此外,还讨论了一种模态转换为另一种模态的建模框架,以及利用一种模态来增强另一种模态的表示学习的模型。为总结第二部分,介绍了专注于同时处理两种模态的架构。最后,还介绍了其他模态以及通用多模态模型,这些模型能够在一个统一的架构内处理不同模态上的不同任务。

PDF链接:https://arxiv.org/pdf/2301.04856.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除