基于生成增强预训练的语义分析上下文表示学习

题目： Learning Contextual Representations for Semantic Parsing with Generation-Augmented Pre-Training 发表时间：2020/10（Accepted to AAAI 2021）作者：Peng Shi, Patrick Ng, Zhiguo Wang, Henghui Zhu, Alexander Hanbo Li, Jun Wang, Cicero Nogueira dos Santos, Bing Xiang 推荐理由：最近，通过利用大规模文本语料库来训练具有自我监督学习目标的大型神经语言模型，例如掩码语言模型（MLM），人们对学习各种自然语言处理任务的上下文表示产生了极大的兴趣。然而，在一项初步研究的基础上，我们观察到现有的通用语言模型在应用于文本到SQL语义解析器时存在三个问题：无法检测语句中的列提及，无法从单元格值推断列提及，以及无法组合复杂的SQL查询。为了缓解这些问题，我们提出了一个模型预训练框架，即生成增强预训练（Generation-Augmented-pre-training，GAP），它通过利用生成模型生成预训练数据来联合学习自然语言话语和表模式的表示。GAP模型是在2M的话语模式对和30K的话语模式SQL三元组上训练的，它们的话语是通过生成模型生成的。基于实验结果，利用GAP模型作为表示编码器的神经语义解析器在SPIDER和CRITERIA-TO-SQL基准上都获得了最新的结果。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

基于生成增强预训练的语义分析上下文表示学习

评论列表

评论