多模态表示学习是一种学习从不同模态及其相关性中嵌入信息的技术,已经在视觉问答(Visual Question Answering, VQA)、视觉推理自然语言(Natural Language for Visual Reasoning, NLVR)和视觉语言检索(Vision Language Retrieval, VLR)等领域取得了显著的成功。在这些应用中,来自不同模态的跨模态交互和互补信息对于高级模型执行任何多模态任务至关重要,如理解、识别、检索或优化生成。研究人员提出了不同的方法来解决这些任务。
论文链接:https://arxiv.org/pdf/2302.00389.pdf
基于transformer的架构的不同变体在多种模态上表现出色。本综述介绍了关于深度学习多模态架构的进化和增强,以处理各种跨模态和现代多模态任务的文本、视觉和音频特征的全面文献。本文总结了(i)最近任务特定的深度学习方法,(ii)预训练类型和多模态预训练目标,(iii)从最先进的预训练多模态方法到统一架构,以及(iv)多模态任务类别和未来可能的改进,可以设计出更好的多模态学习。为新研究人员准备了一个数据集部分,涵盖了预训练和微调的大多数基准。最后,探讨了面临的主要挑战、差距和潜在的研究方向。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢