视觉知识：跨媒体智能进化的新支点

本文回顾跨媒体智能的发展历程，分析跨媒体智能的新趋势与现实瓶颈，展望跨媒体智能的未来前景。跨媒体智能旨在融合多来源、多模态数据，并试图利用不同媒体数据间的关系进行高层次语义理解与逻辑推理。现有跨媒体算法主要遵循了“单媒体表达”到“多媒体融合”的范式，其中特征学习与逻辑推理两个过程相对割裂，无法综合多源多层次的语义信息以获得统一特征，阻碍了推理和学习过程的相互促进和修正。这类范式缺乏显式知识积累与多级结构理解的过程，同时限制了模型可信度与鲁棒性。在这样的背景下，本文转向一种新的智能表达方式——视觉知识。以视觉知识驱动的跨媒体智能，具有多层次建模和知识推理的特点、并易于进行视觉操作与重建。本文介绍了视觉知识的三个基本要素，即视觉概念、视觉关系、视觉推理，并对每个要素展开详细讨论与分析。视觉知识有助于实现数据与知识驱动的统一框架，学习可归因可溯源的结构化表达，推动跨媒体知识关联与智能推理。视觉知识具有强大的知识抽象表达能力和多重知识互补能力，为跨媒体智能进化提供了新的有力支点。

论文链接：http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=202112310000006&journal_id=jig

内容中包含的图片若涉及版权问题，请及时与我们联系删除

视觉知识：跨媒体智能进化的新支点

评论列表

评论