A Benchmark to Understand the Role of Knowledge Graphs on Large Language Model's Accuracy for Question Answering on Enterprise SQL Databases

简介

大型语言模型（LLMs）在企业应用中具有应用前景，可用于企业SQL数据库的问题回答。然而，鉴于缺乏适用于企业环境的Text-to-SQL基准测试，LLMs能否准确地回答此类数据库中的企业问题仍不清楚。此外，知识图谱（KGs）提供商业背景，从而增强基于LLM的问题回答的潜力尚不清楚。本研究旨在评估LLM驱动的问题回答系统在企业问题和SQL数据库环境下的准确性，同时探讨知识图谱在提高准确性方面的作用。为了实现这一目标，我们引入了一个基准测试，包括保险领域的企业SQL架构、涵盖报告到指标的一系列企业查询，以及一个包含本体和映射的上下文层，定义了一个知识图谱。我们的主要发现是，使用GPT-4进行零-shot提示，直接在SQL数据库上回答问题的准确率为16%。值得注意的是，当问题在企业SQL数据库的知识图表示上提出时，准确率提高到54%。因此，投资于知识图谱为LLM驱动的问题回答系统提供了更高的准确性。
图表
解决问题

评估LLM在企业SQL数据库中的问题回答准确性以及知识图谱在提高准确性中的作用。
关键思路

使用知识图谱来提高LLM的问题回答准确性，可以使准确性从16%提高到54%。
其它亮点

论文提出了一个基于保险领域的企业SQL架构的基准测试，并使用GPT-4进行了实验。实验表明，使用知识图谱可以显著提高LLM的问题回答准确性。论文的贡献在于提出了一个新的解决方案，并在企业领域中进行了实验。
相关研究

最近的相关研究包括：1.《SQLNet: Generating Structured Queries from Natural Language Without Reinforcement Learning》2.《Improving Text-to-SQL Evaluation Methodology》3.《Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task》

A Benchmark to Understand the Role of Knowledge Graphs on Large Language Model's Accuracy for Question Answering on Enterprise SQL Databases

评论