Can LMs Learn New Entities from Descriptions? Challenges in Propagating Injected Knowledge
解决问题:论文主要研究预训练语言模型(LMs)如何通过注入新的实体知识来进行推理,以及如何在不影响其他上下文的情况下学习这些知识。这是一个相对新的问题。
关键思路:论文的关键思路是通过两个cloze-style任务来研究LMs的推理能力。研究表明,目前的知识更新方法(基于梯度微调和其修改方法)在注入新知识后的推理能力上存在局限性,只有在注入的事实和目标推理之间存在词汇重叠时才能提高性能。然而,在LM上下文中添加实体定义可以在所有设置下提高性能,这表明在知识注入方面存在很大的提升空间。
其他亮点:论文还提出了一个新的控制基准,需要手动设计模板来测试LMs的推理能力。实验使用了现实世界的句子数据集ECBD以及新的基准数据集。此外,论文还指出该研究的局限性,并提出了未来的研究方向。
关于作者:主要作者包括Yasumasa Onoe,Michael J. Q. Zhang,Shankar Padmanabhan,Greg Durrett和Eunsol Choi。他们分别来自日本NTT通信科学实验室,斯坦福大学,微软,德克萨斯大学奥斯汀分校和大学伦敦学院。其中,Michael J. Q. Zhang曾在谷歌担任研究员,研究方向包括计算机视觉和自然语言处理。
相关研究:近期的相关研究包括:
"Knowledge Enhanced Contextual Word Representations" by Xu et al.,来自斯坦福大学和谷歌。
"Injecting Relational Knowledge into Pre-trained Transformers" by Li et al.,来自华中科技大学和微软。
"Improving Language Understanding by Generative Pre-Training" by Radford et al.,来自OpenAI。
论文摘要:预训练语言模型(LMs)被用于知识密集型任务,如问答,但随着世界的变化,它们的知识不断过时。先前的研究研究了对LM进行有针对性的更新,注入个别事实并评估模型是否学习了这些事实,同时不改变其他上下文的预测。我们迈出了一步,并研究了LM基于注入的事实进行推理(或传播这些事实)的能力:例如,在学习到某个东西是电视节目之后,LM是否预测你可以观看它?我们使用两个填空式任务来研究这个问题:一个是关于新实体的真实世界句子数据集(ECBD),另一个是一个新的受控基准,使用手动设计的模板,需要对注入的知识进行不同程度的推理。令人惊讶的是,我们发现现有的知识更新方法(基于梯度的微调和此方法的修改)在注入的知识传播方面显示出很少的效果。这些方法只在注入的事实和目标推理之间存在词汇重叠时才改善填空实例的表现。然而,在LM的上下文中预置实体定义可以提高所有设置的性能,这表明对于知识注入的参数更新方法还有很大的提升空间。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢