- 简介基于大型语言模型的文本到SQL方法在生成真实应用中的SQL查询方面取得了重要进展。然而,在真实场景中遇到基于表内容的问题时,问题中存在模糊的数据内容关键词和不存在于数据库模式列名中的情况,这导致了现有方法的性能不佳。为了解决这个问题,我们提出了一种新颖的基于自我检索的表内容感知文本到SQL方法(TCSR-SQL)。它利用LLM的上下文学习能力来提取问题中的数据内容关键词,并推断可能相关的数据库模式,用于生成种子SQL以模糊搜索数据库。搜索结果进一步用于确认设计的编码知识表中的编码知识,包括用于SQL的列名和确切存储内容值。编码知识被发送以获取最终的精确SQL,经过多轮的生成-执行-修订过程。为了验证我们的方法,我们引入了一个基于表内容感知和问题相关的基准数据集,包含1,692个问题-SQL对。在这个基准测试上进行的全面实验表明,TCSR-SQL具有显著的性能,与其他最先进的方法相比,至少提高了13.7%的执行准确性。
- 图表
- 解决问题解决表格内容感知的文本到SQL问题,特别是在问题中出现模糊的数据内容关键词和不存在的数据库架构列名时的性能问题。
- 关键思路通过利用LLM的上下文学习能力提取问题中的数据内容关键词和推断可能相关的数据库架构,生成种子SQL以模糊搜索数据库,然后使用设计的编码知识表来确认编码知识,包括SQL中使用的列名和确切存储的内容值,最终获得精确SQL。
- 其它亮点提出了一个新的方法TCSR-SQL,使用自我检索技术解决表格内容感知的文本到SQL问题。在包含1,692个问题-SQL对的基准测试集上进行了全面的实验,相比其他最先进的方法,TCSR-SQL的执行准确度至少提高了13.7%。
- 最近的相关研究包括:《Improving Text-to-SQL Evaluation Methodology》、《Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning》、《Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task》等。
沙发等你来抢
去评论
评论
沙发等你来抢