Advancing Grounded Multimodal Named Entity Recognition via LLM-Based Reformulation and Box-Based Segmentation

向作者提问

NEW

简介

本文提出了一个名为RiVEG的统一框架，将GMNER任务重新定义为联合MNER-VE-VG任务，利用大型语言模型作为连接桥梁。这个新的框架有两个好处：首先，它能够使我们优化MNER模块以获得最佳的MNER性能，并且消除了使用物体检测方法预提取区域特征的需要，从而自然地解决了现有GMNER方法的两个主要局限性；其次，引入Entity Expansion Expression模块和Visual Entailment模块统一了Visual Grounding和Entity Grounding，使得该框架具有无限的数据和模型可扩展性。此外，为了解决GMNER中粗粒度边界框输出可能带来的歧义问题，我们进一步构建了新的SMNER任务和相应的Twitter-SMNER数据集，旨在生成细粒度的分割掩码，并实验性地证明使用基于框提示的Segment Anything Model（SAM）赋予任何GMNER模型完成SMNER任务的能力的可行性和有效性。大量实验证明，RiVEG在MNER、GMNER和SMNER任务的四个数据集上显著优于现有方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文提出了一种解决GMNER任务的方法，旨在识别命名实体、实体类型及其对应的视觉区域。该任务存在两个挑战：社交媒体上图像和文本之间的联系不明显，导致许多命名实体无法与图像关联；GMNER任务中的细粒度命名实体与其他任务中的粗粒度名词短语有所不同。本文试图解决这两个问题。
关键思路

本文提出了一种名为RiVEG的框架，将GMNER任务转化为联合MNER-VE-VG任务，通过利用大型语言模型作为连接桥梁。这种改进带来了两个好处：首先，它使我们能够优化MNER模块以实现最佳的MNER性能，并消除了使用对象检测方法预提取区域特征的需要，从而自然地解决了现有GMNER方法的两个主要限制；其次，引入实体扩展表达模块和视觉蕴含（VE）模块统一了视觉定位（VG）和实体定位（EG），使得该框架具有无限的数据和模型可扩展性。
其它亮点

本文提出了一种新的框架RiVEG，通过联合MNER-VE-VG任务解决了GMNER任务中的两个主要问题。此外，还提出了新的SMNER任务和Twitter-SMNER数据集，旨在生成细粒度分割掩码，并实验性地证明了使用基于框提示的Segment Anything Model（SAM）可以使任何GMNER模型具有完成SMNER任务的能力。在四个数据集上进行的广泛实验表明，RiVEG在MNER、GMNER和SMNER任务上显著优于现有方法。
相关研究

最近在这个领域中，还有一些相关的研究，例如：《End-to-End Open-Domain Named Entity Recognition with Neural Attributions》、《End-to-End Multi-Modal Fine-Grained Named Entity Recognition with Hierarchical Graph Attention Networks》、《Grounded Entity Recognition with Balanced Multimodal Transformers》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问