清华、北大、华盛顿大学等 | GraphPrompt: 使用基于图的提示模板的生物医学实体规范化

【论文标题】GraphPrompt: Biomedical Entity Normalization Using Graph-based Prompt Templates

【作者团队】Jiayou Zhang, Zhirui Wang, Shizhuo Zhang, Megh Manoj Bhalerao, Yucong Liu, Dawei Zhu, Sheng Wang

【发表时间】2021/12/01

【机构】清华、北大、南洋理工、芝加哥大学、华盛顿大学

【论文链接】https://doi.org/10.1101/2021.11.29.470486

生物医学实体规范化统一了整个生物医学实验和研究的语言，并进一步使本文能够获得生命科学的整体观点。目前的方法主要研究比较标准化的实体，如疾病和药物的规范化，而忽略了比较模糊但关键的实体，如通路、功能和细胞类型，阻碍了它们在现实世界的应用。为了在这些未被充分开发的实体上实现生物医学实体的规范化，本文首先引入了一个由专家策划的数据集OBO-syn，其中包括70种不同类型的实体和200万个策划的实体-同义词对。为了利用这个数据集的独特的图结构，本文提出了GraphPrompt，一种基于提示的学习方法，根据图创建提示模板。Graph-Prompt在零样本和小样本设置上分别获得了41.0%和29.9%的改进，表明这些基于图的提示模板的有效性。本文设想，本文的方法GraphPrompt和OBO-syn数据集可以广泛地应用于基于图的NLP任务，并作为分析多样化和积累的生物医学数据的基础。

上图为GraphPrompt的实例。GraphPrompt将测试同义词（CD115（human））分类到图中的实体，方法是根据零阶邻居嵌入式图像、一阶邻居嵌入式图像和二阶邻居嵌入式图像，将图转换为提示模板。

上图显示了对OBO-syn数据集的分析。
a图, 显示70个实体-同义词对的数量分布。

b图, 具有不同最短距离的实体对的文本相似性。

c图, 比较NCBI、BC5CDR、OBO-syn的短语提及量。y轴是2800万份PubMed摘要中提及的数量。X轴是按提及次数排序的短语百分数。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

清华、北大、华盛顿大学等 | GraphPrompt: 使用基于图的提示模板的生物医学实体规范化

评论列表

评论