绝大多数的信息都以表格为形式进行存储,并包含于网页、数据库或是文档中。从消费类商品的技术规格到金融和国家发展统计数据、体育赛事结果等等,都可能使用表格存储。目前,人们需要通过手动查看这类表格才能找到问题的答案,或者需要通过某项服务来获得特定问题的答案(如体育赛事结果)。如果可以通过自然语言进行查询,这些信息的可用性和实用性都将得到大幅提升。
例如,下图展示了一个表格以及人们可能会询问的一些问题。这些问题的答案能在表格的一个或多个单元格内找到(“哪位摔跤手卫冕次数最多?”),或者需要结合多个单元格计算得出(“有多少世界冠军仅卫冕过一次?”)。
最近许多对于此类问题的解决方法都应用了传统的语义分析,将自然语言问题转换为类似 SQL 的数据库查询,通过对数据库执行查询来获取答案。例如,问题“有多少世界冠军仅卫冕过一次?”将映射到类似“select count(*) where column(“No. of reigns”) == 1;”的查询,然后执行该查询来生成答案。这类方法通常需要大量的工程设计才能生成句法和语义上都有效的查询,并且针对性极强,很难扩展到任意问题(如体育赛事结果)。
收录在 ACL 2020 的论文《TAPAS:通过预训练进行弱监督表格解析》(TAPAS:Weakly Supervised Table Parsing via Pre-training)”中,我们采用了不同的方法,通过对 BERT 架构进行扩展,将问题与表格数据结构一起编码,从而生成一个可直接指向答案的模型。与创建仅适用于单一表格样式的模型不同,这种方法生成的模型可广泛应用于来自各种领域的表格。在对数百万个维基百科表格进行预训练之后,我们发现,此方法在处理 3 类学术表格问题-答案 (QA) 数据集时在准确率方面表现出优势。
另外,为促进在这一领域展开更多卓有成效的研究,我们已开源了用于训练和测试这些模型的代码,以及已用维基百科表格进行预训练的模型,相关代码请参阅我们的 GitHub 代码库。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢