语法纠错是自然语言处理领域的热门任务之一,其目的是将错误的句子修改为正确的句子。为了缓解中文训练语料不足的问题,本文从数据增强的角度出发,提出一种新颖的扩充和增强数据的方法。具体地,为了使模型能更好地获取不同类型和不同粒度的错误,本文首先对语法纠错中出现的错误进行了字和词粒度的分类,在此基础上提出了融合字词粒度噪声的数据增强方法,以此获得大规模且质量较高的错误数据集。基于NLPCC2018共享任务的实验结果 表明,本文提出的融合字词粒度加噪方法能够显著提升模型的性能,在该数据集上达到了最优的性能。最后,本文分析了错误类型和数据规模对中文语法纠错模型性能的影响。
基于字词粒度噪声数据增强的中文语法纠错
汤泽成
2021-11-29 23:02 发布
汤泽成
帖子数:1 评论数:0
个人主页
点赞
收藏
0
举报
举报反馈
举报类型(必选)
- 样式问题
- 涉嫌广告
- 内容抄袭
- 内容侵权
- 政治相关
- 内容涉黄
- 其他
举报详情(选填)
0/200