作者:Mehran Kazemi, Sid Mittal, Deepak Ramachandran
推荐理由:本文聚焦研究:提取事实知识的语言模型微调过程,发现微调可能对知识提取产生负面影响,并提出了两套当前最优方案,以助于弥补负面影响并提高性能。
简介:据观察,在来自网络的大量文本上进行预训练的语言模型 (LM) 包含大量关于世界的各种类型的知识。这一观察导致了知识图谱构建中一种令人兴奋的新范式,在这种范式中,人们从 LM 的参数中提取知识,而不是手动管理或文本挖掘。最近,已经表明,在一组事实知识上微调 LM 可以使它们对来自不同集合的查询产生更好的答案,从而使微调 LM 成为知识提取和知识图谱构建的良好候选者。在本文中,作者分析了用于事实知识提取的微调 LM。作者表明:除了之前已知的积极影响外,微调还会导致一种(可能有害的)现象,作者称之为频率冲击:在测试时,模型高估了出现在训练集中的罕见实体,但是却对训练集中没有出现足够次数的常见实体:预测不足。作者表明:频率冲击会导致模型预测的退化;并且如果超出一定的临界值时,频率冲击的危害甚至可能超过微调的积极影响,从而使微调总体上有害。然后,作者考虑两种解决方案来弥补已识别的负面影响:1-模型混合、2-预训练任务中的混合微调。与普通微调相比,这两种解决方案相结合带来了显着改进。
论文下载:https://arxiv.org/pdf/2301.11293.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢