ChatGPT是由OpenAI开发的先进人工智能语言模型,因其出奇的强大的回答跟进问题的能力而引起了很多关注。在本报告中,我们旨在评估ChatGPT在语法错误纠正(GEC)任务中的表现,并将其与商业GEC产品(例如Grammarly)和最先进的模型(例如GECToR)进行比较。通过在CoNLL2014基准数据集上进行测试,我们发现在自动评估指标(例如F0.5分)方面,ChatGPT的表现不如这些基线,特别是在长句子方面。我们检查输出结果,并发现ChatGPT超越了一对一的修正。具体而言,它更倾向于改变某些短语或句子结构的表面表达方式,同时保持语法正确性。人工评估定量证实了这一点,并建议ChatGPT产生更少的欠修正或误修正问题,但产生更多的过修正问题。这些结果表明,ChatGPT受到自动评估指标的严重低估,并且可能是GEC的一个有前途的工具。

标题:ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error
Correction Benchmark

作者:Haoran Wu, Wenxuan Wang, Yuxuan Wan, Wenxiang Jiao, Michael Lyu

论文:https://arxiv.org/abs/2303.13648