- 简介多模态实体链接(MEL)是一个关键任务,旨在将多模态上下文中的歧义提及链接到多模态知识库(如维基百科)中的参考实体。现有方法主要集中在使用复杂机制和广泛的模型调整方法来建模特定数据集上的多模态交互。然而,这些方法过于复杂化MEL任务,忽视了视觉语义信息,使得它们成本高昂且难以扩展。此外,这些方法无法解决文本歧义、冗余和噪声图像等问题,严重降低了它们的性能。幸运的是,大型语言模型(LLMs)的出现,具有强大的文本理解和推理能力,特别是能够处理多模态输入的多模态大语言模型(MLLMs),为解决这一挑战提供了新的思路。然而,如何设计一个通用的基于LLMs的MEL方法仍然是一个紧迫的挑战。为此,我们提出了UniMEL,一个统一的框架,利用LLMs处理多模态实体链接任务。在这个框架中,我们使用LLMs通过集成文本和视觉信息来增强提及和实体的表示,并对文本信息进行精细化处理。随后,我们采用基于嵌入的方法来检索和重新排序候选实体。然后,仅调整了约0.26%的模型参数,LLMs就可以从候选实体中进行最终选择。在三个公共基准数据集上进行的广泛实验表明,我们的解决方案实现了最先进的性能,消融研究验证了所有模块的有效性。我们的代码可在https://anonymous.4open.science/r/UniMEL/上获得。
-
- 图表
- 解决问题该论文旨在解决多模态实体链接(MEL)任务中存在的问题,包括文本歧义、冗余和噪声图像等问题,并提出一种基于大型语言模型(LLMs)的统一框架UniMEL。
- 关键思路UniMEL框架利用LLMs处理多模态实体链接任务,通过将文本和视觉信息整合并细化文本信息来增强提及和实体的表示,采用基于嵌入的方法检索和重新排序候选实体,并使用仅约0.26%的模型参数进行微调,从候选实体中进行最终选择。
- 其它亮点该论文提出了一种新的基于LLMs的多模态实体链接框架UniMEL,取得了最新的最优性能,并且在三个公共基准数据集上进行了广泛的实验验证。此外,该论文还开放了代码。
- 最近在这个领域中,还有一些相关的研究,如《End-to-End Multimodal Entity Linking with Neural Masker》、《Multimodal Entity Linking for Arbitrary Domains with Hierarchical Reinforcement Learning》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流