表格是当前存储大型结构化数据的主流方式,虽然可以通过设计 SQL 查询来有效访问表格数据,但是提供自然语言形式的查询接口可以使更广泛的用户能够利用这些庞大的关系型数据。因此,text-to-SQL 的解析任务旨在将自然语言描述的问题转换为机器可以执行的 SQL 语句。这可以让普通用户也可以轻松的查询表格。
在这篇论文中,来自阿里巴巴达摩院、中科院的几位研究者对自然语言处理中 text-to-SQL 领域的 100 多篇论文进行了全面回顾。作者旨在全面回顾 text-to-SQL 解析任务,对当前具有代表性的 text-to-SQL 方法进行分类,然后介绍当前 text-to-SQL 面临的挑战并探索该领域未来的潜在方向。
论文标题:A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future Directions
论文作者:
Bowen Qin, Binyuan Hui, Lihan Wang, Min Yang, Jinyang Li, Binhua Li, Ruiying Geng, Rongyu Cao, Jian, Sun, Luo Si, Fei Huang, Yongbin Li
论文链接:
https://arxiv.org/abs/2208.13629
引言
早期由数据库社区展开的 text-to-SQL 相关工作需要通过大量人工和用户交互,而近年来随着深度学习的发展和大规模开源数据的公布,由神经生成式模型构建的 text-to-SQL 模型得到了迅速发展。
典型的神经生成式方法通过 Seq2Seq 模型来自动建模输入的自然语言问题和输出的 SQL 语句间的映射关系,其关键思想为构建一个编码器来理解数据库表格模式和输入的自然语言问题,然后再通过一个解码器来预测目标 SQL 语句。Seq2Seq 方式由于其端对端的建模特性以及对领域知识的弱依赖,成为了 text-to-SQL 任务的主流方法。到目前为止,已有大量不同的神经生成式模型被提出并分别应用于编码器和解码器。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢