SPAGHETTI: Open-Domain Question Answering from Heterogeneous Data Sources with Retrieval and Semantic Parsing

向作者提问

NEW

简介

我们介绍了SPAGHETTI：文本表格和信息框的混合英语信息的语义解析增强生成，这是一个混合问答（QA）流水线，利用来自异构知识源的信息，包括知识库、文本、表格和信息框。我们的LLM增强方法在Compmix数据集上实现了最先进的性能，这是最全面的异构开放领域QA数据集，精确匹配（EM）率为56.5%。更重要的是，对数据集样本的手动分析表明，SPAGHETTI的准确率超过90%，表明EM已不再适用于评估当今QA系统的能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在提出一种混合式问答（QA）流水线，利用来自异构知识源的信息，包括知识库、文本、表格和信息框，以解决开放域QA的挑战。同时，本文试图证明精确匹配（EM）不再适用于评估QA系统的能力。
关键思路

本文提出了SPAGHETTI，一种语义解析增强生成的混合式QA流水线，利用来自异构知识源的信息，并采用LLM增强方法，取得了在Compmix数据集上最好的表现，达到了56.5%的EM率。
其它亮点

本文的亮点包括使用了LLM增强方法来提高QA系统的性能，同时在Compmix数据集上取得了最好的表现。实验结果表明，SPAGHETTI的准确率超过90%。本文还提出了EM不再适用于评估QA系统的能力，需要寻找新的评估方式。本文还开源了代码。
相关研究

在这个领域中，最近的相关研究包括：1）使用预训练的BERT模型来解决QA问题；2）使用知识图谱来辅助QA系统；3）使用远程监督来提高QA系统的性能。相关论文包括《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《Knowledge Graph Embedding-based Question Answering》和《Distant Supervision for Question Answering using Sentence-level Alignment》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问