- 简介最近的语言模型(LMs)的进展显著增强了它们利用表格数据推理的能力,主要是通过程序辅助机制来操作和分析表格。然而,这些方法通常需要整个表格作为输入,由于位置偏差或上下文长度限制而导致可扩展性挑战。为了应对这些挑战,我们引入了TableRAG,这是一个专门为基于LM的表格理解而设计的检索增强生成(RAG)框架。TableRAG利用查询扩展与模式和单元格检索来定位关键信息,然后将其提供给LMs。这使得数据编码更加高效和精确的检索,显著减少提示长度并减轻信息丢失。我们从Arcade和BIRD-SQL数据集中开发了两个新的百万令牌基准,以全面评估TableRAG在规模上的有效性。我们的结果表明,TableRAG的检索设计实现了最高的检索质量,从而在大规模表格理解方面实现了最新的最佳性能。
-
- 图表
- 解决问题论文旨在解决基于表格数据的语言模型存在的可扩展性问题,即输入整个表格会导致位置偏差或上下文长度限制的挑战。
- 关键思路TableRAG是一种特定设计用于基于语言模型的表格理解的检索增强生成(RAG)框架,利用查询扩展与模式和单元格检索来定位关键信息,从而实现更高效的数据编码和精确的检索。
- 其它亮点论文提出了两个新的百万级基准数据集,分别来自Arcade和BIRD-SQL数据集。实验结果表明,TableRAG的检索设计实现了最高的检索质量,从而在大规模表格理解方面实现了最新的最佳表现。
- 在最近的相关研究中,有一些类似的工作,如《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》和《TabFact: A Large-scale Dataset for Table-based Fact Verification》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流