中文文本纠错(Chinese Text Correction, CTC)主要针对中文拼写错误和语法错误进行检测和纠正。目前大部分中文拼写纠错和语法纠错的测试集都是单句级别的,并且是由外国的汉语学习者撰写的。我们发现中文母语使用者犯的错误和非母语使用者犯的错误有很大的不同,直接使用目前已有的一些数据集作为测试集来为面向中文母语使用者准备的校对系统进行评测并不合适。此外,一些错误通常还需要上下文信息来进行检测和纠正。在本文中,我们提出了一个基于中文母语使用者撰写文本的跨句子中文文本纠错测试集CCTC。具体来说,我们人工标注了1500篇文章,包含3万多个句子,超过一百万的中文汉字。数据集主要包含拼写、冗余、缺失和乱序四种错误类型。在该数据集上,我们测试了一系列文本纠错的最新模型。实验结果表明,目前效果最好的模型距离人类表现依然相差20个百分点,这说明文本纠错任务仍然有很大的提升空间。我们希望新的数据集可以推动基于中文母语使用者的文本纠错和跨句子级文本纠错的发展。CCTC数据集开源至https://github.com/destwang/CTCResources。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢