Text2SQL is Not Enough: Unifying AI and Databases with TAG

简介

AI系统可以通过数据库回答自然语言问题，这种系统可以释放巨大的价值。这些系统可以让用户利用语言模型（LMs）强大的推理和知识能力以及数据管理系统的可扩展计算能力。这些组合能力将使用户可以针对自定义数据源提出任意自然语言问题。然而，现有方法和基准不足以探索这种情况。Text2SQL方法仅关注可以用关系代数表达的自然语言问题，这只代表了真实用户希望提出的问题的一小部分。同样，检索增强生成（RAG）考虑了可以通过点查找回答的查询的有限子集，这些查询只涉及数据库中的一个或几个数据记录。我们提出了Table-Augmented Generation（TAG），这是一种统一且通用的用于回答数据库中自然语言问题的范式。TAG模型表示了先前未被探索的LM和数据库之间的广泛交互，并为利用LM的世界知识和推理能力提供了激动人心的研究机会。我们系统地开发基准来研究TAG问题，并发现标准方法只能正确回答不到20％的查询，这证实了在这个领域需要进一步研究。我们在https://github.com/TAG-Research/TAG-Bench发布了基准的代码。
图表
解决问题

论文旨在解决自然语言问题与数据库之间的交互问题，提出了一种新的方法Table-Augmented Generation（TAG）来回答自然语言问题。该方法可以处理更广泛的查询类型，而不仅仅是关系代数表达式或点查询，解决了现有方法和基准测试无法涵盖的问题。
关键思路

TAG模型的关键思路是将自然语言问题和数据库表格联系起来，通过对表格的语义理解和推理，生成SQL查询，从而回答自然语言问题。该模型还使用了预训练的语言模型和表格嵌入来提高性能。
其它亮点

论文提出了一个新的方法TAG来处理自然语言问题与数据库之间的交互，可以处理更广泛的查询类型。作者还开发了相应的基准测试，并发现现有的方法只能正确回答不到20%的查询。作者还开源了基准测试的代码。实验使用了多个数据集，并与其他方法进行了比较。该方法为进一步探索自然语言问题与数据库之间的交互提供了新的思路和机会。
相关研究

与该论文相关的研究包括Text2SQL和Retrieval-Augmented Generation（RAG）等方法。Text2SQL方法专注于能够用关系代数表达的自然语言问题，而RAG方法仅考虑可以通过点查询回答的查询。

Text2SQL is Not Enough: Unifying AI and Databases with TAG

评论