Match, Compare, or Select? An Investigation of Large Language Models for Entity Matching

2024年05月27日
  • 简介
    实体匹配(EM)是实体解析(ER)中的关键步骤。最近,基于大型语言模型(LLMs)的实体匹配表现出巨大的潜力。然而,目前的LLM实体匹配方法通常遵循二进制匹配范例,忽略了记录关系之间的全局一致性。在本文中,我们研究了各种基于LLM的实体匹配方法,从不同的角度融合记录交互。具体而言,我们全面比较了三种代表性策略:匹配、比较和选择,并分析了它们在不同场景中的优点和挑战。基于我们的发现,我们进一步设计了一个复合实体匹配框架(ComEM),利用多种策略和LLMs的组合。ComEM从不同方面的优势中受益,并在效果和效率方面都取得了提高。在8个ER数据集和9个LLMs上的实验结果验证了通过选择策略融合记录交互的优越性,以及ComEM带来的进一步的成本效益。
  • 图表
  • 解决问题
    本论文旨在解决实体匹配(EM)中二元匹配范式无法考虑记录关系全局一致性的问题,提出了基于大型语言模型(LLMs)的实体匹配方法,并探究了匹配、比较和选择三种代表性策略的优劣和适用场景。
  • 关键思路
    本论文提出了复合实体匹配框架(ComEM),通过利用多种策略和LLMs的组合,从不同角度和优势中受益,提高了效率和准确性。其中,选择策略在结合记录交互方面表现最佳。
  • 其它亮点
    本文在8个ER数据集和9个LLMs上进行了实验,验证了选择策略的优越性和ComEM的成本效益。值得关注的是,本文提出的方法不仅提高了匹配效率和准确性,而且在处理记录关系全局一致性方面具有新颖性。此外,本文开源了代码。
  • 相关研究
    近期相关研究包括《Entity Resolution with Pre-trained Transformers》、《Entity Matching Using Transformer-Based Hierarchical Graph Convolutional Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论