Grade Like a Human: Rethinking Automated Assessment with Large Language Models

2024年05月30日
  • 简介
    尽管大型语言模型(LLMs)已被用于自动评分,但它们在评分复杂问题方面的表现仍未达到与人类相同的水平。现有研究集中于评分程序的一个特定步骤:使用预定义的评分标准进行评分。然而,评分是一个多方面的程序,包括评分标准设计和评分后的审查等至关重要的步骤。目前缺乏系统性的研究探索LLMs提升整个评分过程的潜力。本文提出了一种基于LLMs的评分系统,涵盖以下关键组成部分:1)开发评分标准,不仅考虑问题,还考虑学生答案,可以更准确地反映学生的表现。2)在评分标准的指导下,为每个学生提供准确和一致的分数,以及定制的反馈。3)进行评分后的审查,以更好地确保准确性和公正性。此外,我们收集了一个名为OS的新数据集,该数据集来自一门大学操作系统课程,并在我们的新数据集和广泛使用的Mohler数据集上进行了广泛的实验。实验表明,我们提出的方法是有效的,为基于LLMs的自动评分系统的开发提供了一些新的见解。
  • 作者讲解
  • 图表
  • 解决问题
    提出了一种基于大型语言模型的自动化评分系统,旨在解决评分过程中的多个关键步骤,包括评分标准的设计、评分和后评审,以提高评分的准确性和公正性。
  • 关键思路
    使用大型语言模型来开发评分标准,提供准确和一致的评分和反馈,并进行后评审以提高评分的准确性和公正性。
  • 其它亮点
    在OS课程数据集和Mohler数据集上进行了广泛的实验,证明了该方法的有效性。该论文提供了一些新的思路,可用于开发基于大型语言模型的自动化评分系统。
  • 相关研究
    现有的研究主要集中在使用预定义的评分标准进行评分。与之相关的研究包括“Automated Essay Scoring Using Machine Learning”和“Automated Grading of Short Answer Questions”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问