作者:Thang M. Pham , Seunghyun Yoon , Trung Bui , Anh Nguyen

简介:自 BERT(Devlin 等人,2018 年)以来,学习上下文化词嵌入已成为 NLP 中的事实标准。然而,由于缺乏人工注释的上下文短语基准,学习上下文化短语嵌入的进展受到阻碍。为了填补这一空白,作者提出了 PiC——一个包含约 28K 名词短语的数据集、其上下文 Wikipedia 页面、以及一套用于评估短语嵌入质量的三个难度不断增加的任务。作者发现:在PiC数据集上进行训练可以提高排名模型的准确性,并显着将问答 (QA) 模型推向接近人类的准确度,即在给定查询短语和段落的语义搜索中达到 95% 的精确匹配 (EM)。有趣的是,作者发现有证据表明:这种令人印象深刻的性能是因为 QA 模型学会了更好地捕捉短语的共同含义、而不论其实际上下文如何。也就是说,在作者的短语意义消歧 (PSD) 任务中,SotA 模型的准确度大幅下降(60% EM),无法区分两种不同上下文下同一短语的两种不同含义。作者的 第3 任务 PiC 基准测试的进一步结果表明:学习上下文化的短语嵌入仍然是一个有趣的、开放的挑战。

论文下载:https://arxiv.org/pdf/2207.09068.pdf

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除