- 简介最近的Text-to-SQL(Text2SQL)技术强调在上下文学习中刺激大型语言模型(LLM),取得了显著的成果。然而,当处理冗长的数据库信息和复杂的用户意图时,它们面临着挑战。本文提出了一个两阶段框架,以提高当前基于LLM的自然语言到SQL系统的性能。我们首先介绍了一种新颖的提示表示,称为参考增强表示,它包括模式信息和从表格中随机抽样的单元格值,以指导LLM生成SQL查询。然后,在第一阶段,问题-SQL对作为少量样本演示被检索,促使LLM生成初步SQL(PreSQL)。之后,解析PreSQL中提到的实体以进行模式链接,这可以显着压缩有用信息。在第二阶段中,我们使用链接的模式简化提示的模式信息,并指导LLM生成最终的SQL。最后,作为后处理模块,我们提出使用不同LLM之间的交叉一致性而不是特定LLM内的自我一致性。我们的方法在Spider基准测试中实现了新的SOTA结果,执行准确度达到87.6%。
- 图表
- 解决问题本论文旨在提高当前基于大型语言模型的自然语言到SQL系统的性能,解决处理冗长的数据库信息和复杂用户意图时遇到的挑战。
- 关键思路论文提出了一个两阶段框架来增强当前基于LLM的自然语言到SQL系统的性能。第一阶段使用参考增强表示法来生成初步的SQL,然后进行模式链接以压缩有用的信息。第二阶段使用链接的模式来简化提示的模式信息,指导LLM生成最终的SQL。最后,通过跨不同的LLM实现交叉一致性,而不是在特定的LLM内实现自我一致性。
- 其它亮点该方法在Spider基准测试中实现了新的SOTA结果,执行准确率达到87.6%。论文还提供了开源代码,并使用了多个数据集进行实验。值得深入研究的是,论文提出的参考增强表示法可以用于其他自然语言处理任务中。
- 最近的相关研究包括《A Comprehensive Survey on Text-to-SQL Generation》、《Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢