新闻文本通常会涉及一个或多个地域,主地域则描述了文本舆情内容的地域属性,即该文本主要讲述了哪里发生的事情,是进行舆情分析的关键属性。近些年随着深度学习的快速发展,地名自动抽取的效果有了明显提升,但针对主地域自动抽取的研究还比较少。基于此,该文结合主流神经网络模型的优点,通过引入注意力机制,构建了一个基于IDLSTM+CRF的主地域抽取系统,该系统通过地名识别、主地域抽取、主地域补全三大模块实现对主地域标签的自动抽取和补全,并成功运用在线上生产环境。此外,目前还没有标准的中文主地域评测集合。针对该问题,该文标注并开源了1226条验证集和1500条测试集,希望藉此推动该领域的发展。实验结果表明,在地名识别上,该文提出的方法要优于BiLSTM+CRF等模型,在主地域抽取上,该文提出的方法能分别在验证集和测试集上取得91.7%和84.8%的抽取准确率。

内容中包含的图片若涉及版权问题,请及时与我们联系删除