Beyond human subjectivity and error: a novel AI grading system

2024年05月07日
  • 简介
    对于开放性问题的评分是教育中一项高投入、高影响的任务。自动化这一任务可以显著减轻教育专业人员的工作负担,并通过避免人为主观性和错误,为学生提供更加一致的评分结果。虽然最近人工智能技术的突破可能有助于这种自动化,但尚未在大规模上进行展示。在本文中,我们介绍了一种新颖的自动短答案评分(ASAG)系统。该系统基于经过微调的开源Transformer模型,我们使用大量的来自不同学科的大学课程的考试数据进行了训练。我们在第一次实验中评估了训练模型在保留测试数据中的表现,并发现在广泛的未见过的问题和课程中,该模型具有高准确性水平。在第二次实验中,我们将我们的模型的性能与经过认证的人类领域专家进行了比较:我们首先从真实历史考试中组装了另一个测试数据集——那些历史成绩是在一个受监管的、具有法律约束力的考试过程中授予学生的,因此我们将它们视为我们实验的基础真相。然后,我们要求经过认证的人类领域专家和我们的模型对历史学生答案进行再次评分,而不披露历史成绩。最后,我们将得到的成绩与历史成绩进行比较。我们发现,在考察的课程中,与人类重新评分者相比,该模型偏离官方历史成绩的中位绝对误差要小44%,这意味着该模型在评分方面比人类更一致。这些结果表明,利用增强人工智能的评分可以减少人为主观性,提高一致性,从而最终增加公正性。
  • 图表
  • 解决问题
    论文旨在解决教育领域中开放式问题的自动评分问题,以减轻教育专业人员的工作量,提高评分的一致性和公正性。
  • 关键思路
    论文提出了一种基于fine-tuned transformer模型的自动短答案评分系统,通过对大量来自不同学科的大学课程的考试数据进行训练,实现了在广泛领域内的高准确性。在与领域专家进行比较后,该模型的评分一致性优于人类评分者。
  • 其它亮点
    论文使用了大量真实的历史考试数据集进行实验,并公开了开源代码。通过与领域专家的比较,论文证明了该模型在评分一致性方面的优势,具有广泛应用前景。
  • 相关研究
    在该领域的相关研究还包括:1. Automated Short Answer Grading Using Deep Learning(使用深度学习进行自动短答案评分);2. A review of automatic short answer grading systems for STEM education(STEM教育中自动短答案评分系统的综述)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论