
论文链接:https://arxiv.org/pdf/2207.03637.pdf
代码地址:https://github.com/jzbjyb/OmniTab
表格中的信息可以作为文本的重要补充,使基于表格的问答系统具有很大的价值。处理表的内在复杂性通常会给模型设计和数据注释增加额外负担。在本文中,我们的目标是开发一个简单的基于表的QA模型,只需最少的注释工作。基于表的QA需要问题和表之间的对齐以及对多个表元素执行复杂推理的能力,因此我们提出了一种杂食性预训练方法,该方法消耗自然数据和合成数据,以赋予模型这些各自的能力。具体来说,给定免费可用的表,我们利用检索将其与相关的自然句子配对,以进行基于掩码的预训练,并通过转换从表中采样的SQL来合成自然语言问题,以进行QA损失的预训练。我们在Few-Shot和全场景中进行了广泛的实验,结果清楚地证明了我们的模型OmniTab的优越性,最佳多任务方法在128镜头和全场景中分别实现了16.2%和2.7%的绝对增益,也建立了WikiTableQuestions的最新技术。详细的烧蚀和分析揭示了自然和合成数据的不同特征,为杂食性预训练的未来方向提供了依据。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢