基于字词粒度噪声数据增强的中文语法纠错

语法纠错是自然语言处理领域的热门任务之一，其目的是将错误的句子修改为正确的句子。为了缓解中文训练语料不足的问题，本文从数据增强的角度出发，提出一种新颖的扩充和增强数据的方法。具体地，为了使模型能更好地获取不同类型和不同粒度的错误，本文首先对语法纠错中出现的错误进行了字和词粒度的分类，在此基础上提出了融合字词粒度噪声的数据增强方法，以此获得大规模且质量较高的错误数据集。基于NLPCC2018共享任务的实验结果表明，本文提出的融合字词粒度加噪方法能够显著提升模型的性能，在该数据集上达到了最优的性能。最后，本文分析了错误类型和数据规模对中文语法纠错模型性能的影响。