现实世界中的信息一般以多模态的形式出现,而由于技术问题,多模态研究进展缓慢。而近年来深度学习的发展以及算力的支持,使得图片、音频等多媒体数据可以和文本采用相同的深度学习框架分析,这为多模态研究提供了便利。例如,可以采用现有的ResNet等模型的输出向量作为图片表示。于是很多研究者采用了深度学习方法从多模态数据中抽取信息,在实体挖掘、关系挖掘、实体消歧等任务上对比传统的仅仅基于文本的方法取得了效果的提升,也从侧面证明了多模态信息抽取研究的必要性。本文介绍了多模态信息处理的一般方法,以及三个多模态信息抽取任务。

内容中包含的图片若涉及版权问题,请及时与我们联系删除