- 简介在信息抽取(IE)领域,传统上研究各种模态及其组合的任务时通常是孤立地进行的,这导致了深度识别和分析跨模态信息的空白。为了解决这个问题,本文首次引入了基于多模态的通用信息抽取(MUIE)的概念,提供了一个统一的任务框架,以分析各种模态的IE任务及其细粒度的基础。为了解决MUIE问题,我们定制了一种多模态大语言模型(MLLM)Reamo,能够从所有模态中提取和基础化信息,即一次性识别所有模态的信息。通过不同的调整策略来更新Reamo,使其具备强大的信息识别和细粒度多模态基础能力。为了解决缺乏适合基于MUIE的基准测试的问题,我们策划了一个高质量、多样化和具有挑战性的测试集,其中包括了9种常见模态组合的IE任务及其相应的多模态基础。Reamo与现有的集成到管道方法中的MLLM进行广泛比较,证明了它在所有评估维度上的优势,为后续研究建立了一个强有力的基准测试。我们的资源已经公开发布在https://haofei.vip/MUIE。
-
- 图表
- 解决问题本文旨在引入基于多模态的通用信息提取(MUIE)的概念,提出一种统一的任务框架来分析各种模态的任何信息提取任务,以及它们的细粒度基础。同时解决当前信息提取领域中,任务通常被孤立地研究的问题。
- 关键思路本文提出了一种基于多模态大语言模型(MLLM)的方法Reamo,可以从所有模态中提取和基础信息,并通过不同的调整策略进行更新,从而具备了强大的信息识别和细粒度多模态基础的能力。
- 其它亮点本文提出了基于多模态的通用信息提取(MUIE)的概念,并提出了一种新的解决方案Reamo,与现有的MLLMs相比,在所有评估维度上都具有优势。此外,作者还提出了一个高质量、多样化和具有挑战性的测试集,并公开了资源。
- 最近的相关研究包括:1. Multi-modal Information Extraction via Adversarial Cross-modal Retrieval;2. Multi-modal Information Extraction with Image and Text Graphs;3. Multi-modal Named Entity Recognition via Knowledge Integration。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流