流水的NLP铁打的NER：命名实体识别实践与探索

本文首发于知乎，作者：王岳王院长

最近在做命名实体识别（Named Entity Recognition, NER）的工作，就是从一段文本中抽取到找到任何你想要的东西，可能是某个字，某个词，或者某个短语。通常是用序列标注（Sequence Tagging）的方式来做，老 NLP task 了

为什么说流水的NLP铁打的NER？NLP四大任务嘛，分类、生成、序列标注、句子对标注。分类任务，面太广了，万物皆可分类，各种方法层出不穷；句子对标注，经常是体现人工智能（zhang）对人类语言理解能力的标准秤，孪生网络、DSSM、ESIM 各种模型一年年也是秀的飞起；生成任务，目前人工智障 NLP 能力的天花板，虽然经常会处在说不出来人话的状态，但也不断吸引 CopyNet、VAE、GAN 各类选手前来挑战；唯有序列标注，数年如一日，不忘初心，原地踏步，到现在一提到 NER，还是会一下子只想到 LSTM-CRF，铁打不动的模型，没得挑也不用挑，用就完事了，不用就是不给面子

虽然之前也做过 NER，但是想细致地捋一下，看一下自从有了 LSTM-CRF 之后，NER 在做些什么，顺便记录一下最近的工作，中间有些经验和想法，有什么就记点什么

因为能力有限，还是跟之前一样，就少讲理论少放公式，多画模型图多放代码，还是主要从工程实现角度记录和分享下经验，也记录一些个人探索过程。如果有新人苦于不知道怎么实现一个 NER 模型，不知道 LSTM-CRF、BERT-CRF 怎么写，看到代码之后便可以原地起飞，从此打开新世界的大门；或者有老 NLPer 从我的某段探索过程里感觉还挺有意思的，那我就太开心了。

感兴趣的可以继续戳原文。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

流水的NLP铁打的NER：命名实体识别实践与探索

评论列表

评论