Improving Retrieval-augmented Text-to-SQL with AST-based Ranking and Schema Pruning

2024年07月03日
  • 简介
    我们从大型语言模型的角度关注文本到SQL语义解析。考虑到商业数据库架构的规模和商业智能解决方案的可部署性所带来的挑战,我们提出了一种方法,动态检索输入数据库信息,并使用抽象语法树选择少量样本进行上下文学习。此外,我们研究了并行语义解析器在生成$\textit{近似}$预期SQL查询版本方面的可利用程度,以支持我们的检索。我们将此方法推向极致——我们调整了一个由不到$500$M参数组成的模型,使其成为一个极其高效的近似器,并增加了处理架构的并行化能力。我们将我们的方法应用于单语和跨语言语义解析基准测试中,显示出对现有基线的改进。全面的实验突出了这种检索增强生成设置中涉及的模块的贡献,揭示了未来工作的有趣方向。
  • 图表
  • 解决问题
    本论文旨在从大语言模型的角度解决文本到SQL语义解析的问题,探索动态检索输入数据库信息和使用抽象语法树进行上下文学习的方法。同时,研究并行语义解析器在生成预期SQL查询的近似版本方面的应用,以支持检索。这是否是一个新问题?
  • 关键思路
    本论文提出了一个极其高效的逼近模型,将其与能够并行处理数据库模式的模型相结合,从而实现动态检索和上下文学习。这一方法在单语和跨语言基准测试中均取得了优于现有方法的结果。
  • 其它亮点
    本论文的亮点包括使用抽象语法树进行上下文学习、并行处理数据库模式、逼近模型生成SQL查询的近似版本。实验使用了多个数据集,并在单语和跨语言基准测试中均取得了优于现有方法的结果。论文提供了开源代码。
  • 相关研究
    在这个领域中,最近的相关研究包括《Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning》、《Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论