- 简介本文介绍了自然语言转SQL(NL2SQL)技术,该技术为不熟悉数据库的非专业用户提供了使用SQL进行数据分析的机会。将自然语言转为商业智能(NL2BI)是实际生产系统中NL2SQL的一种流行的实用场景,相较于NL2SQL,NL2BI面临更多挑战。本文提出了ChatBI,一种全面高效的技术,用于解决NL2BI任务。首先,分析了交互模式,这是NL2SQL和NL2BI使用中的一个重要模块,并设计了一个更小、更便宜的模型以匹配这种交互模式。在商业智能场景中,表格包含大量列,使得依赖大型语言模型(LLMs)进行模式链接的现有NL2SQL方法由于令牌限制而无法继续进行。商业智能场景中的模糊列比例更高,也使得模式链接变得困难。ChatBI将数据库社区中的现有视图技术结合起来,首先将模式链接问题分解为单视图选择问题,然后使用更小、更便宜的机器学习模型选择具有显著减少列数的单个视图。这个单个视图的列然后作为所需列传递给LLM进行模式链接。最后,ChatBI提出了一个不同于现有流程的分阶段流程,使ChatBI能够更准确地生成包含复杂语义和比较关系的SQL。我们已经在百度的数据平台上部署了ChatBI,并将其集成到多个产品线中进行大规模生产任务评估。所得结果突显了它在实用性、通用性和效率方面的优越性。同时,与我们的真实BI场景数据表和查询下的当前主流NL2SQL技术相比,它也取得了最佳结果。
- 图表
- 解决问题本论文旨在解决自然语言转SQL技术在商业智能领域中的应用,即NL2BI任务中存在的挑战,包括交互模式不同、表格列数众多、模糊列较多等问题。
- 关键思路论文提出了ChatBI技术,通过将模式链接问题分解为单视图选择问题,并使用更小、更便宜的机器学习模型选择单个视图,然后将该视图的列作为模式链接所需的列传递给LLM,最终提出了一种分阶段的流程,以更准确地生成包含复杂语义和比较关系的SQL。
- 其它亮点论文在Baidu的数据平台上部署了ChatBI,并将其集成到多个产品线中进行大规模生产任务评估。实验结果表明,ChatBI在实用性、多功能性和效率方面具有优越性,并在实际BI场景中取得了最佳结果。
- 最近在这个领域中,还有一些相关研究,如《Seq2SQL: Generating Structured Queries from Natural Language Using Reinforcement Learning》、《Editing-Based SQL Query Generation for Cross-Domain Context-Dependent Questions》等。
沙发等你来抢
去评论
评论
沙发等你来抢