Text-to-SQL Error Correction with Language Models of Code

解决问题:本篇论文旨在解决文本到SQL语句转换中存在的错误问题,提出了一种基于语言模型的自动文本到SQL纠错模型。这是一个新问题,目前语义解析器的准确性仍不足以实现实际应用。

关键思路:本文的关键思路是建立从子句级别进行编辑的模型,而不是从标记级别进行编辑。此外,虽然大多数代码语言模型并没有专门为SQL进行预训练,但它们了解编程语言(如Python)中的常见数据结构及其操作。因此,本文提出了一种新的SQL查询及其编辑的表示方法,更贴近代码语言模型的预训练语料库。相比当前领域的研究状况,本文的思路更加注重从语言模型的角度出发,提高了文本到SQL转换的准确性。

其他亮点:本文的实验使用了两个强基线模型进行对比,并在准确率上取得了2.4-6.5的提升,相比两个基线模型也取得了4.3个百分点的绝对改进。作者开源了代码和数据集,方便其他研究者进行复现和改进。值得进一步深入研究的是如何将本文的思路应用到其他自然语言到代码的转换任务中。

关于作者:本文的主要作者分别来自美国德克萨斯州大学奥斯汀分校、得克萨斯大学奥斯汀分校、宾夕法尼亚大学和微软研究院。他们的代表作包括《A Survey of Current Datasets for Vision and Language Research》、《A Survey on Dialogue Systems: Recent Advances and New Frontiers》等。

相关研究:近期其他相关的研究包括《Neural Text-to-SQL Generation: A Comparative Analysis》(作者:Xinyuan Zhang, Dejing Dou,机构:俄勒冈州立大学)、《Schema-Aware Neural Semantic Parsing for Text-to-SQL》(作者:Tao Yu, Zifan Li, Zilin Zhang,机构:卡内基梅隆大学)等。

论文摘要:本文探讨了如何构建自动文本到SQL错误校正模型,尽管文本到SQL解析取得了一定的进展,但当前的语义解析器仍然不够准确以实际应用。我们注意到,基于标记的编辑是缺乏上下文并且有时模棱两可的,因此我们提出构建基于从句的编辑模型。此外,虽然大多数代码语言模型并没有专门为SQL进行预训练,但它们了解编程语言(如Python)中常见的数据结构及其操作。因此,我们提出了一种新颖的SQL查询及其编辑表示方法,更加贴近代码语言模型的预训练语料库。我们的错误校正模型提高了不同解析器的精确匹配准确性2.4-6.5个百分点,并在两个强基线上获得了高达4.3个百分点的绝对改进。我们的代码和数据可在https://github.com/OSU-NLP-Group/Auto-SQL-Correction上获得。

内容中包含的图片若涉及版权问题,请及时与我们联系删除