- 简介自动化作文评分(AES)的进步通常依赖于标记的作文,获取这些作文需要巨大的成本和专业知识。最近,大型语言模型(LLM)在各种任务中取得了巨大成功,但它们在AES中的潜力尚未得到充分探索。本文提出了一种零样本提示框架Multi Trait Specialization(MTS),用于引出LLM的作文评分能力。具体而言,我们利用ChatGPT将写作能力分解为不同的特征,并为每个特征生成评分标准。然后,通过多个对话轮次提示LLM提取特征得分,每个轮次基于评分标准对一个特征进行评分。最后,通过特征平均和最小-最大缩放得出总分。在两个基准数据集上的实验结果表明,MTS始终优于直接提示(Vanilla)在所有LLM和数据集的平均QWK上,TOEFL11上最大增益为0.437,ASAP上为0.355。此外,在MTS的帮助下,小型Llama2-13b-chat大大优于ChatGPT,有助于在实际应用中进行有效部署。
- 图表
- 解决问题本文旨在探索利用大型语言模型(LLMs)进行自动化论文评分(AES)的可能性,提出了一种名为 Multi Trait Specialization(MTS)的方法,通过 ChatGPT 将写作能力分解为不同的特征,并生成每个特征的评分标准,从而实现对 LLMs 进行零样本提示,以评估论文的质量。
- 关键思路MTS 方法是一种基于 ChatGPT 的零样本提示框架,能够将写作能力分解为不同的特征,并为每个特征生成评分标准,通过多轮对话从 LLMs 中提取特征分数,并通过特征平均和最小-最大缩放导出总体分数。
- 其它亮点本文提出的 MTS 方法在两个基准数据集上的实验结果表明,相对于基准模型 Vanilla,MTS 方法在所有 LLMs 和数据集上的平均 QWK 上均有显著提高,TOEFL11 上最大提高 0.437,ASAP 上最大提高 0.355。此外,MTS 可以帮助小型 Llama2-13b-chat 显著优于 ChatGPT,为实际应用提供了便利。
- 最近的相关研究包括:1.《A survey of automated essay scoring using natural language processing techniques》;2.《A neural approach to automated essay scoring》;3.《Machine learning methods for automatic scoring of student-written essays》等。
沙发等你来抢
去评论
评论
沙发等你来抢