Recognizing Everything from All Modalities at Once: Grounded Multimodal Universal Information Extraction

向作者提问

NEW

简介

在信息抽取（IE）领域，传统上研究各种模态及其组合的任务时通常是孤立地进行的，这导致了深度识别和分析跨模态信息的空白。为了解决这个问题，本文首次引入了基于多模态的通用信息抽取（MUIE）的概念，提供了一个统一的任务框架，以分析各种模态的IE任务及其细粒度的基础。为了解决MUIE问题，我们定制了一种多模态大语言模型（MLLM）Reamo，能够从所有模态中提取和基础化信息，即一次性识别所有模态的信息。通过不同的调整策略来更新Reamo，使其具备强大的信息识别和细粒度多模态基础能力。为了解决缺乏适合基于MUIE的基准测试的问题，我们策划了一个高质量、多样化和具有挑战性的测试集，其中包括了9种常见模态组合的IE任务及其相应的多模态基础。Reamo与现有的集成到管道方法中的MLLM进行广泛比较，证明了它在所有评估维度上的优势，为后续研究建立了一个强有力的基准测试。我们的资源已经公开发布在https://haofei.vip/MUIE。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在引入基于多模态的通用信息提取（MUIE）的概念，提出一种统一的任务框架来分析各种模态的任何信息提取任务，以及它们的细粒度基础。同时解决当前信息提取领域中，任务通常被孤立地研究的问题。
关键思路

本文提出了一种基于多模态大语言模型（MLLM）的方法Reamo，可以从所有模态中提取和基础信息，并通过不同的调整策略进行更新，从而具备了强大的信息识别和细粒度多模态基础的能力。
其它亮点

本文提出了基于多模态的通用信息提取（MUIE）的概念，并提出了一种新的解决方案Reamo，与现有的MLLMs相比，在所有评估维度上都具有优势。此外，作者还提出了一个高质量、多样化和具有挑战性的测试集，并公开了资源。
相关研究

最近的相关研究包括：1. Multi-modal Information Extraction via Adversarial Cross-modal Retrieval；2. Multi-modal Information Extraction with Image and Text Graphs；3. Multi-modal Named Entity Recognition via Knowledge Integration。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问