BASE-SQL: A powerful open source Text-To-SQL baseline approach

2025年02月15日
  • 简介
    将自然语言转换为SQL语言以查询数据库(Text-to-SQL)具有广阔的应用前景,引起了广泛关注。目前,主流的Text-to-SQL方法主要分为基于上下文学习(ICL)的方法和基于监督微调(SFT)的方法。ICL方法由于使用了最先进的闭源模型,能够取得相对较好的效果。然而,在实际应用场景中,需要考虑数据隐私、SQL生成效率和成本等因素,而SFT方法在这些方面具有一定优势。当前,基于开源模型微调的方法缺乏易于实现且高效(成本效益高)的基准方法。我们提出了一种基于开源模型微调的流水线方法,称为BASE-SQL,该方法包括四个组件:模式链接(Schema Linking)、候选SQL生成(Candidate SQL Generate)、SQL修订(SQL Revision)和SQL合并修订(SQL Merge Revision)。实验结果表明,BASE-SQL使用开源模型Qwen2.5-Coder-32B-Instruct,在BIRD开发集上达到了67.47%的准确率,在Spider测试集上达到了88.9%的准确率,显著优于其他使用开源模型的方法,甚至超过了某些使用GPT-4闭源模型的方法。同时,BASE-SQL易于实现且效率高(平均每次生成SQL仅需调用大语言模型五次)。代码将在https://github.com/CycloneBoy/base_sql 开源。
  • 图表
  • 解决问题
    论文试图解决将自然语言转换为SQL查询(Text-to-SQL)的问题,特别是在使用开源模型进行微调时缺乏高效且易于实现的方法。这是一个在实际应用中具有重要意义的问题,因为数据隐私、生成效率和成本都是需要考虑的关键因素。
  • 关键思路
    关键思路是提出了一种基于开源模型微调的管道方法BASE-SQL,该方法包括四个组件:Schema Linking、Candidate SQL Generate、SQL Revision 和 SQL Merge Revision。与现有方法相比,BASE-SQL不仅使用了开源模型Qwen2.5-Coder-32B-Instruct实现了显著的性能提升,而且在效率和易用性方面也表现出色,平均只需五次调用大型语言模型即可生成一次SQL。
  • 其它亮点
    论文的亮点在于其实验结果展示了BASE-SQL在BIRD开发集和Spider测试集上的高准确性,分别达到了67.47%和88.9%,超过了其他使用开源模型的方法,甚至优于某些使用闭源模型GPT-4o的方法。此外,作者承诺开源代码,这将进一步推动社区的研究和发展。未来可以继续研究如何进一步优化SQL生成的效率和准确性,以及如何扩展到更多类型的数据库系统。
  • 相关研究
    最近在这个领域中的相关研究包括使用闭源模型的In-context Learning (ICL) 方法和使用监督微调 (SFT) 的方法。一些相关的研究论文标题包括《Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning》、《RAT-SQL: Relation-Aware Schema Encoding for Text-to-SQL Parsers》以及《TAPAS: Weakly Supervised Table Parsing via Pre-training》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论