UIUC、哥伦比亚大学《知识驱动视觉语言预训练》200+Slides全面阐述多模态知识预训练技术（AAAI2023）

AAAI是CCF推荐的A类国际学术会议，在人工智能领域享有很高的学术声誉。第37届国际人工智能大会（AAAI2023）于2023年2月7日-2月14日在美国华盛顿召开。这次会议共收到来自8777篇投稿，录用1721篇，录用率约19.6%。

来自UIUC、哥伦比亚大学等学者带来了《知识驱动视觉语言预训练》教程，非常值得关注！

近年来，视觉-语言(V+L)预训练模型通过学习视觉和文本之间的对齐在多媒体应用中取得了巨大成功。对实体知识(即物体和物体类型)的理解是各种V+L任务的基本能力，如图像描述和视觉问答。它们还需要理解相关知识(即场景图)的能力，这些知识可以进一步支持组合式视觉问答、场景图解析等。

除此之外，具有事件论元结构的事件知识(即事件类型、动作、活动)对于支持视觉常识推理、情景识别、动作识别和人与物体交互等认知级视觉理解至关重要。为了跟踪事件和实体的状态变化，将过程性知识引入视频问答、动作识别、动作分割、动作定位、动作预测和过程规划等领域。语言模型中的知识也可以有利于视觉-语言预训练，而不是显式地获取结构化知识。因此，将知识添加到视觉-语言预训练中提出了两个关键挑战，即在多个层次上获取知识，以及对知识的结构和语义进行编码。

教程地址：https://blender.cs.illinois.edu/tutorial/KnowledgeVLP/

内容中包含的图片若涉及版权问题，请及时与我们联系删除

UIUC、哥伦比亚大学《知识驱动视觉语言预训练》200+Slides全面阐述多模态知识预训练技术（AAAI2023）

评论