【论文标题】BioAct: Biomedical Knowledge Base Construction using Active Learning
【作者团队】Dustin Wright, ProfileAnna Lisa Gentile, ProfileNoel Faux, ProfileKristen L. Beck
【发表时间】2022/04/15
【机 构】哥本哈根大学、IBM
【论文链接】https://doi.org/10.1101/2022.04.14.488416
创建和管理知识资源一直是生物医学领域的一项重要活动。近年来,知识库建设的自动化方法蓬勃发展,使大规模建设和管理这些资源成为可能。在生物领域,诸如下一代测序等技术以指数级的速度产生新的数据,使得单纯的手工整理知识资源根本不可行。自动构建知识库的主要技术是信息提取,特别是诸如命名实体识别或关系提取的任务。信息提取的主要障碍是用于训练的标记数据的可用性,由于需要领域专家,这可能是非常昂贵和具有挑战性的。主动学习的目的是最大限度地减少人工标注的成本,只需要对数据中较小和较有用的部分进行标注。基于这一动机,本文设计了一种方法来快速构建高质量的数据集,以实现生物医学知识库的构建。该方法被命名为BioAct,它基于SciBERT等预训练模型构成的自动注释方法,使用主动学习来创建生物领域的训练数据集。除了BioAct方法本身,本文还公开发布了一个由BioAct构建的关于抗菌性的注释数据集。此外,本文使用MegaRes和CARD知识库模拟了一个知识库构建任务,以提供关于注释数据集对该任务的有用性的见解和经验教训。
上图展示了主动学习的流程。主动学习包括从一个小的种子数据集开始迭代训练一个模型,这个数据集被逐步扩大,为最有可能提高模型性能的数据提供新的标签。种子数据集由一组有注释的数据组成,这些数据可以用有限的预算获得,但不足以有效地训练一个机器学习模型。除了一小部分有标注的数据外,还有一大部分没有标注的数据𝒰,这些数据既可以用来获取新的标签,也可以用来探测哪些样本最难标注的模型。主动学习的一个迭代包括以下内容。
- 使用可用的注释数据训练模型 𝒟
- 使用训练好的模型来预测𝒰中数据的标签。
- 将预测的标签按其概率分布的熵的平均值进行排序
- 从有序的预测标签中选择前N=100个样本
- 让人类专家纠正所选的预测结果
- 将新标记的数据添加到标记的数据集中 𝒟
对于模型,本文使用了SciBERT,这是BERT模型的一个变种,专门为科学文本量身定做。SciBERT对科学文本特别有效,因为它是在Semantic Scholar的大量科学论文集上预训练的。本文对实体识别任务和用于关系提取的文本分类任务都使用了默认参数。该模型的实体识别在BERT的输出上使用了一个双向LSTM,以及一个字符级CNN,然后输出被送入一个CRF来预测最可能的标签序列。对于关系提取,本文在同一句子中共同出现的每一对实体上使用文本分类模型,即用特殊的标记来标记序列中的两个实体,并使用[CLS]标记来预测关系类型。
上图展示了主动学习流程为知识库的构建带来的节约。具体实施流程如下:
最初的种子知识库是MegaRes知识库,它包含形式为(Gene, ResistanceMechanism, Chemical)的三元组。知识库中的每个三元组都有一组与之相关的论文,从这些论文中可以推断出该三元组。另外本文也使用了PubMed 来源。除了MegaRes之外,本文还在自动知识库构建评估中使用了更大的CARD知识库。
为了从领域专家那里获得注释,本文使用了Brat,一个为信息提取标记数据的常用工具。在本文收集种子数据集的初始标注阶段,每个工作人员都得到了一个20个文档的集合,并被要求在一定时间内(4周)尽可能多地进行标注。本文每周举行两次定期的 "办公时间",回答工作人员关于标注的任何问题,以及解决工作人员难以解决的模糊标注。在此期间,工作人员被要求对实体和关系进行标注。本文的注释指南作为补充材料提供。
在主动学习阶段,本文将工人的数量减少了大约75%(从13人减少到3人),并使用不同的工具来收集实体和关系的注释。对于实体,本文再次使用Brat,并在每次迭代中向工作者提供一批完整的文档,以根据文档中预测的平均熵进行修正。对于关系,本文向工作人员提供了一个CSV文件,其中每一行都包含一个标有两个实体的单句和一个关系预测。工作者被要求纠正包含关系预测的那一列。对于实体,本文使用了10个文档的批量大小,对于关系,本文使用了100个关系的批量大小。
对于未标记的关系样本,本文被要求有一组已经标记了实体的句子。在这个过程中,本文首先在每个迭代中修正实体,然后在修正后的实体上预测关系,选择前100个最不确定的预测进行修正,把剩下的未修正的样本留在未标记的关系池中。
创新点
1.一种快速引导自动知识库构建工具的方法,可以在相同的时间段内以25%的注释的数量产生两倍的标签。
2.一个用实体和关系标记的数据集,用于提取抗菌性信息。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢