NAACL 2022 | 基于表格的问答系统

论文链接：https://arxiv.org/pdf/2207.03637.pdf

表格中的信息可以作为文本的重要补充，使基于表格的问答系统具有很大的价值。处理表的内在复杂性通常会给模型设计和数据注释增加额外负担。在本文中，我们的目标是开发一个简单的基于表的QA模型，只需最少的注释工作。基于表的QA需要问题和表之间的对齐以及对多个表元素执行复杂推理的能力，因此我们提出了一种杂食性预训练方法，该方法消耗自然数据和合成数据，以赋予模型这些各自的能力。具体来说，给定免费可用的表，我们利用检索将其与相关的自然句子配对，以进行基于掩码的预训练，并通过转换从表中采样的SQL来合成自然语言问题，以进行QA损失的预训练。我们在Few-Shot和全场景中进行了广泛的实验，结果清楚地证明了我们的模型OmniTab的优越性，最佳多任务方法在128镜头和全场景中分别实现了16.2%和2.7%的绝对增益，也建立了WikiTableQuestions的最新技术。详细的烧蚀和分析揭示了自然和合成数据的不同特征，为杂食性预训练的未来方向提供了依据。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

NAACL 2022 | 基于表格的问答系统

评论列表

评论