作者:Muhammad Arslan Manzoor, Sarah Albarri, Ziting Xian,等
简介:多模态表示学习作为一种学习嵌入,来自不同模态及其相关性的信息的技术,在视觉问答(VQA)、视觉推理自然语言(NLVR)和视觉语言等各种应用中,获得了显着的成功检索(VLR)。在这些应用程序中,跨模态交互和来自不同模态的互补信息,对于高级模型执行任何多模态任务(例如,理解、识别、检索或最佳生成)至关重要。研究人员提出了多种方法来解决这些任务。基于 Transformer 的架构的不同变体在多种模式上表现出色。本综述介绍了关于深度学习多模态架构的演变和增强的综合文献,以处理各种跨模态和现代多模态任务的文本、视觉和音频特征。本研究总结了
(i) 最近特定于任务的深度学习方法,
(ii) 预训练类型和多模态预训练目标,
(iii) 从最先进的预训练多模态方法到统一架构,
以及 (iv) 多模态任务可以设计出更好的多模式学习的类别和未来可能的改进。
此外,作者为新研究人员准备了一个数据集章节、涵盖了预训练和微调的大部分基准。
最后,探讨了主要挑战、差距和潜在的研究课题。
论文下载:https://arxiv.org/pdf/2302.00389.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢