随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受 到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态 信息处理技术提出了更高要求,同时也给多模态研究提供了海量的数据和丰富的应用场景。该文首先介绍了近期 自然语言处理领域关注度较高的多模态应用,并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结 构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法,同时也综合分析了视觉-语言跨 模态预训练模型的最新进展。
http://jcip.cipsc.org.cn/CN/abstract/abstract3314.shtmt
- 引言
人工智能研究经过70多年的探索,在视觉、语 音与声学、语言理解与生成等单模态① 人工智能领 域已取得了巨大的突破。特别是视觉领域的目标检 测与人脸识别技术、语音领域的语音识别与语音合 成技术、自然语言处理领域的机器翻译与人机对话 技术在限定场景下已经实现了规模化的应用。然 而,人类对周围环境的感知、对信息的获取和对知识 的学习与表 达 都 是 多 模 态 (Multimodal)的。近 些 年,如何让计算机拥有更接近人类的理解和处理多 模态信息的能力,进而实现高鲁棒性的推理决策成 为热点问题,受到人工智能研究者的广泛关注。另 一方面,随着图文社交(Facebook、Twitter、微信、微 博等)、短视频(YouTube、抖音、快手)、音频(Club-音、京东、淘宝等)和数字人(2D、3D、卡通、写实、超 写实等)等应用的涌现,对多模态信息处理技术在用 户理解、内容理解和场景理解上提出了更高的要求, 同时也给多模态技术提供了海量的数据和丰富的应 用场景。 多模态信息处理技术打破计算机视觉、语音与 声学、自然语言处理等学科间的壁垒,是典型的多学 科交叉技术。多模态技术从20世纪70年代开始发 展,Morency等人[1]将多模态技术的发展划分为四 个阶段,即 1970-1980 年 的 行 为 时 代 (Behavioral Era)、1980-2000 年 的 计 算 时 代 (Computational Era)、2000-2010 年的交互时代(InteractionEra) 和2010年起的深度学习时代(DeepLearningEra)。 多模态核心技术又分为:多模态表示(Representation),多模态融合(Fusion)、多模态转换(Translation)、多 模 态 对 齐 (Alignment)和 模 态 协 同 学 习 (Co-learning)类。
近些年,研究者从不同的视角对多模态信息处 理技术做了很好的总结回顾。Zhang等人[2]围绕图 像描述、视觉-语言生成、视觉问答和视觉推理四个 应用,从计算机视觉的角度总结了多模态表示学习 和多模态融合的最新进展。Summaira等人[3]的综 述覆盖了更多的多模态应用,并根据应用组织了每 一个多模态应用的技术进展和局限性。
本文从自然语言处理的视角出发,介绍多模态 信息处理技术的最新进展,组织结构如下:第1节 介绍 NLP领域关注度较高的多模态应用和相关的 数据集。多模态融合是多模态信息处理的核心问 题。第2节从单模态信息的表示方法、多模态信息 的融合阶段、融合模型的网络结构、未对齐模态和模 态缺失情况下的多模态融合等角度介绍主流的多模 态融合方法。第3节介绍多模态预训练技术,并从 模型的网络结构、模型的输入、预训练目标、预训练 语料和下游任务等维度对比最新提出的多模态预训 练模型。第4节介绍多模态技术在工业界的应用。 最后一节是总结和对未来工作的展望。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢