LOTUS: Enabling Semantic Queries with LLMs Over Tables of Unstructured and Structured Data

2024年07月16日
  • 简介
    我们介绍了语义操作符,这是一种声明式编程接口,它通过可组合的基于人工智能的操作,扩展了关系模型,用于数据集上的语义查询(例如,使用自然语言标准对记录进行排序或聚合)。每个操作符可以用多种方式实现和优化,打开了一个类似于关系操作符的执行计划的丰富空间。我们在一个名为LOTUS的开源查询引擎中实现了我们的操作符和多个优化,它具有类似于Pandas的API。我们在一系列真实应用程序中展示了LOTUS的有效性,包括事实检查、极端多标签分类和搜索。我们发现LOTUS的编程模型非常具有表现力,以低的开发开销捕获最先进的查询管道。具体而言,在FEVER数据集上,LOTUS的程序可以用几行代码复制最近的最先进的事实检查管道FacTool,并实现一个新的管道,将准确度提高了9.5%,同时提供了7-34倍的较低执行时间。在BioDEX数据集上的极端多标签分类任务中,LOTUS使用其连接操作符复制了最先进的结果质量,同时提供了一种高效的算法,比朴素连接快800倍。在搜索和排名应用程序中,LOTUS允许简单地组合操作符,以实现比基本检索器和重新排序器更高的nDCG@10(分别高出5.9-49.4%),同时提供查询效率,比先前工作使用的基于语言模型的排名方法的执行时间低1.67-10倍。LOTUS可在https://github.com/stanford-futuredata/lotus上公开获得。
  • 作者讲解
  • 图表
  • 解决问题
    缺乏高级抽象来在大规模数据集上执行语义查询,论文试图解决这个问题。
  • 关键思路
    论文引入了语义运算符,扩展了关系模型,使其能够使用基于人工智能的操作进行语义查询。每个运算符都可以有多种实现和优化,从而打开了类似于关系运算符的执行计划的丰富空间。
  • 其它亮点
    论文实现了运算符和它们的优化,并在LOTUS中提供了像Pandas一样的API。实验包括事实检查、极端多标签分类和搜索等应用,证明了LOTUS的有效性。LOTUS的编程模型非常表达,能够以较低的开发成本捕捉最先进的查询管道。此外,LOTUS还提供了查询效率,比先前工作中使用的基于语言模型的排名方法的执行时间低。
  • 相关研究
    与此相关的最近研究包括FacTool、BioDEX等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问