Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs

研究语言模型在将自然语言指令转换为SQL语句的过程中的性能,并提出BIRD,一个具有大规模数据库的英语文本到SQL语句的新基准测试集。

解决问题:该论文旨在解决文本到SQL转换中面临的挑战,特别是在大规模数据库中。现有的基准测试数据集仅关注数据库模式,无法涵盖真实世界应用的需求。

关键思路:该论文提出了Bird数据集,该数据集包含12,751个文本到SQL数据对和95个数据库,总大小为33.4 GB,覆盖37个专业领域。该数据集强调数据库值的重要性,突出了在大规模数据库中面临的新挑战,如脏数据、外部知识和SQL效率等。为了解决这些问题,文本到SQL模型必须具备对数据库值的理解能力。实验结果表明,数据库值对于生成准确的文本到SQL非常重要。此外,该论文还提供了效率分析,为产业界生成高效的文本到SQL提供了启示。

其他亮点:该论文提供了Bird数据集的排行榜和源代码,可供研究人员使用。值得深入研究的工作包括提高文本到SQL模型的执行准确性,以及在更大规模的数据库上进行测试。

关于作者:

Jinyang Li, Binyuan Hui, Ge Qu, Binhua Li, Jiaxi Yang, Bowen Li, Bailin Wang, Bowen Qin, Rongyu Cao, Ruiying Geng, Nan Huo, Chenhao Ma, Kevin C.C. Chang, Fei Huang, Reynold Cheng, Yongbin Li
[The University of Hong Kong & Alibaba Group]

相关研究:近期的相关研究包括ACL 2021上的“Text-to-SQL Generation for Databases with Large Tables”(作者来自华盛顿大学)、EMNLP 2021上的“Improving Text-to-SQL with External Knowledge”(作者来自加州大学圣地亚哥分校)等。

要点:

  • 动机:解决现有数据库与真实场景之间的鸿沟,探索处理大型且脏的数据库内容的能力以及在执行SQL时的优化,从而推进将自然语言转换为SQL语句的研究在真实世界中的应用。
  • 方法:提出了BIRD测试集,包含12,751个文本到SQL数据对和95个数据库,旨在研究大规模数据库中的文本到SQL问题。实验结果表明,语言模型在处理大型数据库内容时需要具备理解数据库值的能力,且在执行SQL时需要更高的准确率和效率。
  • 优势:通过提供一个新的大规模数据库基准测试集,推动了自然语言转换为SQL语句的研究在真实世界中的应用,并提供了有价值的洞见和方向。

论文摘要:

这篇论文探讨了文本到SQL解析,即将自然语言指令转换为可执行SQL语句的过程,在近年来受到越来越多的关注。然而,大部分现有的基准测试,如Spider和WikiSQL,都聚焦于数据库架构,只有少量数据库内容,这导致了学术研究和实际应用之间的差距。为了缩小这一差距,作者提出了一个新的基准测试——Bird,它是一个大规模数据库的文本到SQL任务基准测试,包含12,751对文本到SQL数据和95个数据库,总大小为33.4 GB,涵盖了37个专业领域。

Bird的重点是数据库值,突出了脏数据库内容、NL问题和数据库内容之间的外部知识以及SQL效率等新挑战,特别是在大规模数据库的背景下。为了解决这些问题,文本到SQL模型必须具备数据库值理解能力,除了语义解析。实验结果表明,数据库值在生成大型数据库的准确文本到SQL语句方面具有重要意义。此外,即使是最有效的文本到SQL模型,如ChatGPT,在执行准确度方面也只能达到40.08%,远远低于人类92.96%的结果,这证明了仍然存在挑战。此外,作者还提供了效率分析,以提供有益于工业界的文本到高效SQL语句生成的见解。

作者认为,Bird将有助于推进文本到SQL研究的实际应用。该论文的排行榜和源代码均可在

代码地址:https://bird-bench.github.io/

论文地址:https://arxiv.org/abs/2305.03111 

内容中包含的图片若涉及版权问题,请及时与我们联系删除