Advancing Grounded Multimodal Named Entity Recognition via LLM-Based Reformulation and Box-Based Segmentation

2024年06月11日
  • 简介
    本文提出了一个名为RiVEG的统一框架,将GMNER任务重新定义为联合MNER-VE-VG任务,利用大型语言模型作为连接桥梁。这个新的框架有两个好处:首先,它能够使我们优化MNER模块以获得最佳的MNER性能,并且消除了使用物体检测方法预提取区域特征的需要,从而自然地解决了现有GMNER方法的两个主要局限性;其次,引入Entity Expansion Expression模块和Visual Entailment模块统一了Visual Grounding和Entity Grounding,使得该框架具有无限的数据和模型可扩展性。此外,为了解决GMNER中粗粒度边界框输出可能带来的歧义问题,我们进一步构建了新的SMNER任务和相应的Twitter-SMNER数据集,旨在生成细粒度的分割掩码,并实验性地证明使用基于框提示的Segment Anything Model(SAM)赋予任何GMNER模型完成SMNER任务的能力的可行性和有效性。大量实验证明,RiVEG在MNER、GMNER和SMNER任务的四个数据集上显著优于现有方法。
  • 作者讲解
  • 图表
  • 解决问题
    本文提出了一种解决GMNER任务的方法,旨在识别命名实体、实体类型及其对应的视觉区域。该任务存在两个挑战:社交媒体上图像和文本之间的联系不明显,导致许多命名实体无法与图像关联;GMNER任务中的细粒度命名实体与其他任务中的粗粒度名词短语有所不同。本文试图解决这两个问题。
  • 关键思路
    本文提出了一种名为RiVEG的框架,将GMNER任务转化为联合MNER-VE-VG任务,通过利用大型语言模型作为连接桥梁。这种改进带来了两个好处:首先,它使我们能够优化MNER模块以实现最佳的MNER性能,并消除了使用对象检测方法预提取区域特征的需要,从而自然地解决了现有GMNER方法的两个主要限制;其次,引入实体扩展表达模块和视觉蕴含(VE)模块统一了视觉定位(VG)和实体定位(EG),使得该框架具有无限的数据和模型可扩展性。
  • 其它亮点
    本文提出了一种新的框架RiVEG,通过联合MNER-VE-VG任务解决了GMNER任务中的两个主要问题。此外,还提出了新的SMNER任务和Twitter-SMNER数据集,旨在生成细粒度分割掩码,并实验性地证明了使用基于框提示的Segment Anything Model(SAM)可以使任何GMNER模型具有完成SMNER任务的能力。在四个数据集上进行的广泛实验表明,RiVEG在MNER、GMNER和SMNER任务上显著优于现有方法。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:《End-to-End Open-Domain Named Entity Recognition with Neural Attributions》、《End-to-End Multi-Modal Fine-Grained Named Entity Recognition with Hierarchical Graph Attention Networks》、《Grounded Entity Recognition with Balanced Multimodal Transformers》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问