Multimodal Cross-Document Event Coreference Resolution Using Linear Semantic Transfer and Mixed-Modality Ensembles

2024年04月13日
  • 简介
    本文讨论的是事件共指消解(ECR)的任务,即确定多文档语料库中不同的事件提及是否实际上与同一基础事件相关联。当语言表述模糊不清时,事件图像可以帮助解决共指问题。本文提出了一种多模态跨文档事件共指消解方法,该方法将视觉和文本线索与视觉和语言模型之间的简单线性映射相结合。由于现有的ECR基准数据集很少提供所有事件提及的图像,因此我们使用从互联网上爬取的以及使用图像扩散模型生成的以事件为中心的图像来增强流行的ECB+数据集。我们建立了三种结合图像和文本进行共指消解的方法:1)标准融合模型,进行微调;2)一种新颖的线性映射方法,无需进行微调;3)一种基于语义和话语层面难度分割提及对的组合方法。我们在两个数据集上进行了评估:增强的ECB+和AIDA Phase 1。我们使用跨模态线性映射的集成系统在预处理假设的情况下建立了ECB+ ECR性能的上限(91.9 CoNLL F1),并在AIDA Phase 1上建立了一个新的基准。我们的结果表明,多模态信息在某些具有挑战性的共指问题中对ECR具有实用性,并强调了在共指消解领域需要更多的多模态资源。
  • 作者讲解
  • 图表
  • 解决问题
    解决Event coreference resolution(ECR)任务中语言歧义的问题,提出一种融合视觉和文本线性映射的多模态跨文档事件指代消解方法。
  • 关键思路
    通过收集网络上的事件中心图像和使用图像扩散模型生成事件中心图像,将视觉和文本信息进行融合,建立视觉和语言模型之间的简单线性映射,提出三种融合视觉和文本信息的事件指代消解方法。
  • 其它亮点
    论文使用了ECB+和AIDA Phase 1两个数据集进行实验,提出的融合视觉和文本信息的跨模态线性映射方法在ECB+数据集上取得了91.9 CoNLL F1的最优性能,同时在AIDA Phase 1上建立了一种新的基准线。论文的另一个亮点是使用网络上的事件中心图像和图像扩散模型生成事件中心图像来提供视觉信息。
  • 相关研究
    近期的相关研究包括:《Multi-Task Learning for Event Coreference Resolution》、《Cross-Document Event Coreference Resolution Using Joint Inference over Event Mention and Argument Pair》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问