SQL-to-Schema Enhances Schema Linking in Text-to-SQL

2024年05月15日
  • 简介
    目前先进的文本转SQL方法存在各种比例的错误,包括模式链接错误(不正确的列、表或额外的列)、连接错误、嵌套错误和分组错误。因此,有必要过滤掉不必要的表和列,引导语言模型关注与模式链接相关的表和列,以减少SQL生成过程中的错误。以往的方法包括根据问题的相关性对表和列进行排序,选择排名前几的进行排序,或直接识别SQL生成所需的表和列。然而,这些方法面临的挑战包括模型训练时间长、在少量数据提示中消耗昂贵的GPT-4令牌、或模式链接性能不佳等。因此,我们提出了一种创新的模式链接方法,分为两步:首先,利用完整的数据库模式生成初始SQL查询。随后,从初始SQL查询中提取表和列,创建一个简洁的模式。在使用CodeLlama-34B时,将我们的模式与主流方法获得的模式进行比较,我们的模式表现最佳。利用GPT4,我们的SQL生成方法在Spider数据集上获得了与主流文本转SQL方法可比较的结果。
  • 图表
  • 解决问题
    本论文旨在解决Text-to-SQL中的错误问题,通过提出一种新的schema linking方法,以减少SQL生成过程中的错误率。
  • 关键思路
    本论文提出的schema linking方法分为两步:首先利用完整的数据库模式生成初始SQL查询,然后从初始查询中提取表格和列,以创建简明的模式。相比于现有方法,该方法具有更高的性能。
  • 其它亮点
    论文使用CodeLlama-34B和GPT4进行实验,证明了提出的schema linking方法在SQL生成中的有效性。此外,该论文还开源了代码并使用了Spider数据集进行实验。
  • 相关研究
    在Text-to-SQL领域中,还有许多相关研究,如《Improving Text-to-SQL Evaluation Methodology》和《Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论