新闻文本通常会涉及一个或多个地域,主地域则描述了文本舆情内容的地域属性,即该文本主要讲述了哪里发生的事情,是进行舆情分析的关键属性。近些年随着深度学习的快速发展,地名自动抽取的效果有了明显提升,但针对主地域自动抽取的研究还比较少。基于此,该文结合主流神经网络模型的优点,通过引入注意力机制,构建了一个基于IDLSTM+CRF的主地域抽取系统,该系统通过地名识别、主地域抽取、主地域补全三大模块实现对主地域标签的自动抽取和补全,并成功运用在线上生产环境。此外,目前还没有标准的中文主地域评测集合。针对该问题,该文标注并开源了1226条验证集和1500条测试集,希望藉此推动该领域的发展。实验结果表明,在地名识别上,该文提出的方法要优于BiLSTM+CRF等模型,在主地域抽取上,该文提出的方法能分别在验证集和测试集上取得91.7%和84.8%的抽取准确率。
CCL2021|一种基于IDLSTM+CRF
童逸琦
2021-12-01 23:04 发布
童逸琦
帖子数:1 评论数:0
个人主页
点赞
收藏
0
举报
举报反馈
举报类型(必选)
- 样式问题
- 涉嫌广告
- 内容抄袭
- 内容侵权
- 政治相关
- 内容涉黄
- 其他
举报详情(选填)
0/200