Grade Like a Human: Rethinking Automated Assessment with Large Language Models

简介

尽管大型语言模型（LLMs）已被用于自动评分，但它们在评分复杂问题方面的表现仍未达到与人类相同的水平。现有研究集中于评分程序的一个特定步骤：使用预定义的评分标准进行评分。然而，评分是一个多方面的程序，包括评分标准设计和评分后的审查等至关重要的步骤。目前缺乏系统性的研究探索LLMs提升整个评分过程的潜力。本文提出了一种基于LLMs的评分系统，涵盖以下关键组成部分：1）开发评分标准，不仅考虑问题，还考虑学生答案，可以更准确地反映学生的表现。2）在评分标准的指导下，为每个学生提供准确和一致的分数，以及定制的反馈。3）进行评分后的审查，以更好地确保准确性和公正性。此外，我们收集了一个名为OS的新数据集，该数据集来自一门大学操作系统课程，并在我们的新数据集和广泛使用的Mohler数据集上进行了广泛的实验。实验表明，我们提出的方法是有效的，为基于LLMs的自动评分系统的开发提供了一些新的见解。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提出了一种基于大型语言模型的自动化评分系统，旨在解决评分过程中的多个关键步骤，包括评分标准的设计、评分和后评审，以提高评分的准确性和公正性。
关键思路

使用大型语言模型来开发评分标准，提供准确和一致的评分和反馈，并进行后评审以提高评分的准确性和公正性。
其它亮点

在OS课程数据集和Mohler数据集上进行了广泛的实验，证明了该方法的有效性。该论文提供了一些新的思路，可用于开发基于大型语言模型的自动化评分系统。
相关研究

现有的研究主要集中在使用预定义的评分标准进行评分。与之相关的研究包括“Automated Essay Scoring Using Machine Learning”和“Automated Grading of Short Answer Questions”。

Grade Like a Human: Rethinking Automated Assessment with Large Language Models

提问交流

提问交流