论文链接:https://www.sciengine.com/SSI/doi/10.1360/SSI-2022-0226
日常生活中, 人类至少利用视觉, 听觉等多种感官理解周围环境, 通过整合多种感知模态, 形成对事件的整体认识. 为使机器更好地模仿人类的认知能力, 多模态认知计算模拟人类的“联 觉”(Synaesthesia), 探索图像, 视频, 文本, 语音等多模态输入的高效感知与综合理解手段, 是人工 智能领域的重要研究内容, 也是实现“通用人工智能”的关键之一. 近年来, 随着多模态时空数据 的海量爆发和计算能力的快速提升, 国内外学者提出了大量方法, 以应对日益增长的多样化需求.然而, 当前的多模态认知计算仍局限于人类表观能力的模仿, 缺乏认知层面的理论依据. 本文从信 息论角度出发, 建立了认知过程的信息传递模型, 结合信容 (Information Capacity) 概念, 提出了 多模态认知计算能够提高机器的信息提取能力这一观点, 从理论上对多模态认知计算各项任务进 行了统一. 进而, 根据机器对多模态信息的认知模式, 从多模态关联, 跨模态生成和多模态协同这 三个方面对现有方法进行了梳理与总结, 系统地分析了其中的关键问题与解决方案. 最后, 结合当 前阶段人工智能的发展特点, 重点思考多模态认知计算领域面临的难点与挑战, 并对未来发展趋势 进行了深入分析与展望。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢