BASE-SQL: A powerful open source Text-To-SQL baseline approach

简介

将自然语言转换为SQL语言以查询数据库（Text-to-SQL）具有广阔的应用前景，引起了广泛关注。目前，主流的Text-to-SQL方法主要分为基于上下文学习（ICL）的方法和基于监督微调（SFT）的方法。ICL方法由于使用了最先进的闭源模型，能够取得相对较好的效果。然而，在实际应用场景中，需要考虑数据隐私、SQL生成效率和成本等因素，而SFT方法在这些方面具有一定优势。当前，基于开源模型微调的方法缺乏易于实现且高效（成本效益高）的基准方法。我们提出了一种基于开源模型微调的流水线方法，称为BASE-SQL，该方法包括四个组件：模式链接（Schema Linking）、候选SQL生成（Candidate SQL Generate）、SQL修订（SQL Revision）和SQL合并修订（SQL Merge Revision）。实验结果表明，BASE-SQL使用开源模型Qwen2.5-Coder-32B-Instruct，在BIRD开发集上达到了67.47%的准确率，在Spider测试集上达到了88.9%的准确率，显著优于其他使用开源模型的方法，甚至超过了某些使用GPT-4闭源模型的方法。同时，BASE-SQL易于实现且效率高（平均每次生成SQL仅需调用大语言模型五次）。代码将在https://github.com/CycloneBoy/base_sql 开源。
图表
解决问题

论文试图解决将自然语言转换为SQL查询（Text-to-SQL）的问题，特别是在使用开源模型进行微调时缺乏高效且易于实现的方法。这是一个在实际应用中具有重要意义的问题，因为数据隐私、生成效率和成本都是需要考虑的关键因素。
关键思路

关键思路是提出了一种基于开源模型微调的管道方法BASE-SQL，该方法包括四个组件：Schema Linking、Candidate SQL Generate、SQL Revision 和 SQL Merge Revision。与现有方法相比，BASE-SQL不仅使用了开源模型Qwen2.5-Coder-32B-Instruct实现了显著的性能提升，而且在效率和易用性方面也表现出色，平均只需五次调用大型语言模型即可生成一次SQL。
其它亮点

论文的亮点在于其实验结果展示了BASE-SQL在BIRD开发集和Spider测试集上的高准确性，分别达到了67.47%和88.9%，超过了其他使用开源模型的方法，甚至优于某些使用闭源模型GPT-4o的方法。此外，作者承诺开源代码，这将进一步推动社区的研究和发展。未来可以继续研究如何进一步优化SQL生成的效率和准确性，以及如何扩展到更多类型的数据库系统。
相关研究

最近在这个领域中的相关研究包括使用闭源模型的In-context Learning (ICL) 方法和使用监督微调 (SFT) 的方法。一些相关的研究论文标题包括《Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning》、《RAT-SQL: Relation-Aware Schema Encoding for Text-to-SQL Parsers》以及《TAPAS: Weakly Supervised Table Parsing via Pre-training》。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论