【论文标题】A Novel Sequence Labeling Framework for Extracting Drug-Protein Relations from Biomedical Literature

【作者团队】Ling LuoPo-Ting LaiChih-Hsuan WeiZhiyong Lu

【发表时间】2022/04/01

【机 构】NCBI、NIH

【论文链接】https://doi.org/10.1101/2022.03.31.485886

【数据链接】https://github.com/lingluodlut/BioCreativeVII_DrugProt

自动提取化合物/药物和基因/蛋白质之间的相互作用对药物发现、药物重定向、药物设计和生物医学知识图谱的构建大有裨益。为了促进能够自动检测药物和蛋白质之间关系的系统的发展和评估,在BioCreative VII挑战赛期间组织了DrugProt赛道,本文介绍了对这一挑战性任务的方法。除了在关系提取任务中广泛使用的传统文本分类框架外,本文提出了一个新的序列标注框架,用于药物-蛋白质关系提取。本文首先全面比较了两个框架的5种生物医学预训练语言模型,然后探索了几种组合方法来进一步提高最终的性能。在挑战赛中,提交的最佳方案在官方测试集上取得了0.795的F1分数。此外,作者发现到序列标记框架比文本分类框架更有效,并暨此取得了更好的性能,最后通过多数投票的序列标注模型集成在测试集上取得了0.800的最佳F1分数。

上图展示了文本分类和序列标注框架中的关系提取示例。在本例中,“淫羊藿苷”的药物与“PDE5”和“PDE4”的蛋白质有INHIBITOR关系。如上图显示,文本分类框架将输入文本解构为两个独立的句子分类子任务,而序列标注框架可以有效地将其缩小为一个序列标注任务。

文本分类框架

在这个框架中,关系抽取任务被视为一个多任务多分类问题。如上图A所示首先需要生成句子中的所有药物-蛋白质实体对,然后对所有实体对进行一一处理。对于输入实例,本文在目标实体对的前后插入“<Arg1></Arg1>”和“<Arg2></Arg2>”标注对,即“<Drug></Drug>”标注与其他药物配对,“<Prot></Prot>”标注与其他蛋白质配对。暨此作者构建了一个分类器,将实体对的关系分类为预定义的关系类型。本文使用生物医学预训练语言模型对输入文本进行编码。然后 [CLS] 在 PLM 的最后一个隐藏层的输出向量通过 ReLU 激活函数,使用 softmax 分类层对实体对的关系进行分类。在实验中,本文针对这项任务评估了五种生物医学 PLM,包括 PubMedBERT、BioBERT、BioRoBERTa、BioM-ELECTRA 和 BioM-ALBERT。

序列标注框架

本文将任务转换为序列标记问题。给定句子中的候选实体(本例中为淫羊藿苷),模型的目标是识别所有相应的目标实体(本例中为“PDE5”和“PDE4")与目标实体的药物-蛋白质关系。基于选择不同的实体类型作为源/目标实体,有两种不同的标记策略来提取药物-蛋白质关系,包括从药物到蛋白质(D→P),选择药物实体作为源实体提取相应的目标蛋白质实体;以及从蛋白质到药物(P→D),选择蛋白质实体作为源实体,提取相应的目标药物实体。

具体而言,对于输入序列,本文在源实体的前后插入“<Arg>”和“</Arg>”标注来标注当前药物实体。此外,为了注意文中的其他药物和蛋白质实体,本文在药物的前后插入了“<Drug>”和“</Drug>”,并在蛋白质的前后插入了“<Prot>”和“</Prot >”。对于输出序列,每个标记都分配有一个有助于提取的标注。关系中涉及的标记由相应的关系类型标注(本例中为INHIBITOR)标记,这些标注是根据训练集预定义的。本文使用标注“O”来表示不涉及关系的其他标记。

在上图中,输入句子包含三个实体(即“icariin”的药物实体和“PDE5”和“PDE4”的蛋白质实体)和两个药物-蛋白质关系三元组(即{icariin, INHIBITOR, PDE5}和 {淫羊藿苷,抑制剂,PDE4})。本文选择“淫羊藿苷”的药物作为源实体来预测与该药物相关的相应靶蛋白实体。本文在源实体“icariin”的前后插入“<Arg>”和“</Arg>”标注,并将“<Prot></Prot>”的实体类型标注添加到“ PDE5”和“PDE4”。因为“PDE5”和“PDE4”参与了“INHIBITOR”与源实体“icariin”的关系。

上图显示了2种框架的效果比较。文本分类框架中的模型的结果显示出与序列标注框架中的模型类似的趋势。BioM-ELECTRA在文本分类框架中取得了比其他PLM稍好的性能,F1分数为0.773。与文本分类框架相比,本文的序列标记框架中的所有模型都取得了更好的性能(F1分数平均提高0.68%)。主要的原因是,与文本分类框架相比,本文的序列标注框架可以学习到更多关于源实体和所有相应目标实体的依赖信息。文本分类框架忽略了依赖关系,因为所有实体对都是独立分类的。

 

创新点

1.除了经典的文本分类框架,本文提出了一个新颖的序列标记框架来提取药物和蛋白质的关系。实验结果表明,本文提出的框架更加有效,能够充分地利用关系的依赖性来提高性能。

2.本文还进一步探讨了通过不同的组合方法进行不同的模型组合来优化最终的性能。结果显示,只有序列标注模型与主要投票的组合达到了最佳性能。本文的序列标注框架在没有任何额外的知识库或后处理的情况下,对DrugProt任务表现出很好的效果。

3.本文计划研究是否可以利用外部资源(如现有的知识库、依赖性分析器信息)来进一步改进本文的方法。

4.此外,本文的序列标注框架可以很容易地适应于其他生物医学实体关系的提取。本文将测试本文的框架对其他生物医学关系的概括能力,如药物-药物相互作用。

 

 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除