MMUTF: Multimodal Multimedia Event Argument Extraction with Unified Template Filling

简介

随着多媒体技术的进步，新闻文档和用户生成的内容通常以多种形式呈现，这使得多媒体事件抽取(MEE)成为一个越来越重要的挑战。然而，最近的MEE方法采用了弱对齐策略和简单分类模型的数据增强方法，忽略了自然语言事件模板在具有挑战性的事件参数抽取(EAE)任务中的能力。在这项工作中，我们专注于EAE并通过引入一个统一的模板填充模型来解决这个问题，该模型通过文本提示将文本和视觉模态连接起来。这种方法使得跨本体转移和事件特定语义的整合成为可能。在M2E2基准测试上的实验表明了我们方法的有效性。我们的系统在文本EAE上超过了当前SOTA的+7％ F1，并且通常比多媒体EAE的第二佳系统表现更好。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本篇论文旨在解决多媒体事件提取中事件参数提取（EAE）任务中的弱对齐策略和简单分类模型忽略自然语言事件模板的问题。
关键思路

论文提出了一种通过文本提示将文本和视觉模态连接起来的统一模板填充模型。该模型利用跨本体转移和事件特定语义，有效地解决了EAE任务。
其它亮点

论文在M2E2基准测试上进行了实验，结果表明该方法的有效性。该系统在文本EAE上超过当前SOTA +7% F1，且在多媒体EAE中表现良好。
相关研究

近期的相关研究包括：'Multimodal Event Extraction with Hierarchical Semantic Context Fusion'，'Multi-Modal Event Extraction via Graph Convolutional Networks'等。

MMUTF: Multimodal Multimedia Event Argument Extraction with Unified Template Filling

提问交流

提问交流