ReMatch: Retrieval Enhanced Schema Matching with LLMs

2024年03月03日
  • 简介
    模式匹配是数据集成中关键的任务,涉及将源数据库模式与目标模式对齐,以建立它们元素之间的对应关系。由于文本和语义异构性以及模式大小的差异,这项任务具有挑战性。虽然许多研究探索了基于机器学习的解决方案,但它们通常存在精度低、需要手动映射模式进行模型训练或需要访问源模式数据(由于隐私问题可能不可用)。在本文中,我们提出了一种名为ReMatch的新方法,使用检索增强的大型语言模型(LLM)进行模式匹配。我们的方法避免了预定义映射、任何模型训练或访问源数据库中的数据的需要。在ReMatch方法中,首先将目标模式的表和源模式的属性表示为结构化的基于段落的文档。对于每个源属性文档,我们根据其语义相关性检索$J$个文档,表示目标模式表。随后,我们为每个源表创建一个提示,包括所有属性及其描述,以及从先前检索到的前$J$个目标表的属性集中的所有属性。我们使用这个提示来进行匹配任务,使用LLM,为每个源属性产生一个排名列表,其中包含$K$个潜在匹配项。我们在大型真实世界模式上的实验结果表明,ReMatch显著提高了匹配能力,并优于其他机器学习方法。通过消除训练数据的要求,ReMatch成为现实世界场景的可行解决方案。
  • 图表
  • 解决问题
    本论文旨在解决数据集成中的模式匹配问题,即如何将源数据库模式与目标模式对齐以建立它们之间的元素对应关系。与以往的研究相比,本论文的创新之处在于不需要预定义的映射、模型训练或访问源模式数据。
  • 关键思路
    本论文提出了一种名为ReMatch的新方法,使用检索增强的大型语言模型(LLMs)进行模式匹配,首先将目标模式的表和源模式的属性表示为结构化的基于段落的文档,然后为每个源表创建一个提示,包括其所有属性和描述,以及从先前检索到的前J个目标表中的所有属性。使用这个提示,利用LLMs进行匹配任务,为每个源属性生成一个排名列表,其中包含K个潜在匹配项。
  • 其它亮点
    本论文的实验结果表明,ReMatch显著提高了匹配能力,并优于其他机器学习方法。此外,ReMatch消除了对训练数据的要求,成为现实场景下的可行解决方案。
  • 相关研究
    在最近的相关研究中,也有一些使用机器学习方法进行模式匹配的尝试,但是这些方法往往存在准确率低、需要手动映射模式或需要访问源模式数据等问题。例如,之前的研究中有使用基于规则的方法、基于统计的方法、基于聚类的方法等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论