作者:Vinitra Swamy, Angelika Romanou, Martin Jaggi
简介:本文对不同语言模型的性能量化进行研究、并采用了知识图抽取框架。在大型文本语料库上训练的基于 Transformer 的语言模型在自然语言处理社区中广受欢迎,并且通常用作下游任务的起点。虽然这些模型不可否认是有用的,但在传统的准确度指标之外量化它们的性能是一个挑战。在本文中,作者通过在训练过程的连续阶段获得的知识的快照来比较基于 BERT 的语言模型。通过使用探测任务查询掩码语言模型,可以发现来自训练语料库的结构化关系。作者提出了一种方法,通过在 RoBERTa 早期培训的各个阶段从完形填空“填空”语句中生成知识图谱提取物来揭示知识获取时间表。
作者将此分析扩展到 BERT 模型(DistilBERT、BERT-base、RoBERTa)的预训练变体的比较。本研究工作提出了一个定量框架,通过知识图谱抽取(GED、Graph2Vec)比较语言模型,并展示了词性分析(POSOR)来识别每个模型变体的语言优势。使用这些指标,机器学习从业者可以比较模型,诊断模型的行为优势和劣势,并确定新的目标数据集以提高模型性能。
论文下载: https://arxiv.org/pdf/2111.08546.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢