【论文标题】GraphPrompt: Biomedical Entity Normalization Using Graph-based Prompt Templates
【作者团队】Jiayou Zhang, Zhirui Wang, Shizhuo Zhang, Megh Manoj Bhalerao, Yucong Liu, Dawei Zhu, Sheng Wang
【发表时间】2021/12/01
【机 构】清华、北大、南洋理工、芝加哥大学、华盛顿大学
【论文链接】https://doi.org/10.1101/2021.11.29.470486
生物医学实体规范化统一了整个生物医学实验和研究的语言,并进一步使本文能够获得生命科学的整体观点。目前的方法主要研究比较标准化的实体,如疾病和药物的规范化,而忽略了比较模糊但关键的实体,如通路、功能和细胞类型,阻碍了它们在现实世界的应用。为了在这些未被充分开发的实体上实现生物医学实体的规范化,本文首先引入了一个由专家策划的数据集OBO-syn,其中包括70种不同类型的实体和200万个策划的实体-同义词对。为了利用这个数据集的独特的图结构,本文提出了GraphPrompt,一种基于提示的学习方法,根据图创建提示模板。Graph-Prompt在零样本和小样本设置上分别获得了41.0%和29.9%的改进,表明这些基于图的提示模板的有效性。本文设想,本文的方法GraphPrompt和OBO-syn数据集可以广泛地应用于基于图的NLP任务,并作为分析多样化和积累的生物医学数据的基础。
上图为GraphPrompt的实例。GraphPrompt将测试同义词(CD115(human))分类到图中的实体,方法是根据零阶邻居嵌入式图像、一阶邻居嵌入式图像和二阶邻居嵌入式图像,将图转换为提示模板。
上图显示了对OBO-syn数据集的分析。
a图, 显示70个实体-同义词对的数量分布。
b图, 具有不同最短距离的实体对的文本相似性。
c图, 比较NCBI、BC5CDR、OBO-syn的短语提及量。y轴是2800万份PubMed摘要中提及的数量。X轴是按提及次数排序的短语百分数。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢