作者:Hongyin Zhu, Hao Peng, Zhiheng Lv, Lei Hou, Juanzi Li, Jinghui Xiao
简介:现有技术从不同的角度扩展了BERT,例如设计不同的训练前任务、不同的语义粒度和不同的模型体系结构。但很少有模型考虑从不同的文本格式扩展Bert。在本文中,作者提出了一种异构知识语言模型(HKLM),一种针对所有形式文本(包括非结构化文本、半结构化文本和良好结构文本)的统一预训练语言模型(PLM)。为了捕捉这些多格式知识之间的对应关系,该方法使用masked语言模型学习单词知识,使用三分类目标和标题匹配目标分别学习实体知识和主题知识。为了获得上述多格式文本,作者在旅游领域构建了一个语料库,并在5个旅游NLP数据集上进行了实验。结果表明,作者的方法优于仅使用1/4数据的纯文本预训练。代码、数据集、语料库和知识图将会开源发布。
下载地址:https://arxiv.org/pdf/2109.01048.pdf
HUB地址:https://hub.baai.ac.cn/view/9677
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢