摘要:医疗健康一直是人们热议的话题,对医疗文本的自动抽取技术也日趋重要。目前医疗领域数据人工标注成本高,获取大规模标注语料较困难。一种解决标注语料缺失的方法是基于词表的远程监督方法。但由于远程监督的数据质量问题,模型性能缩水严重。本文对数据进行增强,并采用基于片段排列的命名实体识别模型和负采样方法缓解远程监督带来的漏标问题,选取全局最优节点集合解决实体识别冲突问题,实验性能在人工标注的医疗测试集上得到了进一步提高。

关键词:命名实体识别, 远程监督, 数据漏标, 数据增强, 负采样.