Assessing Student Errors in Experimentation Using Artificial Intelligence and Large Language Models: A Comparative Study with Human Raters

解决问题:这篇论文旨在探究使用大型语言模型(LLMs)自动识别学生实验错误的潜力,并与人类评分员进行比较研究。其目的是为教师提供基础,以提供有效的个性化反馈。当前的评估方法存在局限性,因此自动识别学生错误的方法对于简化教师的评估是非常必要的。

关键思路:通过使用GPT-3.5和GPT-4系列构建的人工智能(AI)系统,论文探究了LLMs在识别学生实验错误方面的能力。研究结果表明,AI系统可以准确识别许多基本的学生错误,例如,当学生将假设集中在自变量而非因变量上时(acc. = 0.90),当学生在进行实验时修改试验次数(acc. = 1),以及学生是否正在进行有效的测试试验(acc. = 0.82)。然而,对于其他通常更复杂的错误,例如学生是否进行了有效的对照试验(acc. = .60),则存在更大的挑战。

其他亮点:该研究不仅探讨了AI在教育领域的实用性,还有助于了解LLMs在探究型学习(如实验)中错误检测的能力。该论文使用了65个学生协议的数据集,并与人类评分员进行了测试。论文未提及是否有开源代码。

关于作者:Arne Bewersdorff、Kathrin Seßler、Armin Baur、Enkelejda Kasneci和Claudia Nerdel是本文的主要作者。他们分别来自德国不同的机构。根据我的数据库,他们之前的代表作并未被提及。

相关研究:近期其他相关的研究包括:

  • "Automated Scoring of Student Essays with Deep Learning",作者为 Sheng-Yi Wu、Yi-Hsuan Lee 和 Hsin-Min Wang,来自台湾的中央研究院。
  • "Automatic Grading of Programming Assignments using Machine Learning Techniques",作者为 K. Srinivas、K. R. M. Rao 和 P. V. G. D. Prasad Reddy,来自印度的Jawaharlal Nehru Technological University。
  • "Assessing the Quality of Student Arguments: An Overview of Current Automated Scoring Approaches",作者为 Arne Weßels、Katharina Scheiter 和 Alexander Renkl,来自德国的Tübingen大学。

论文摘要:该研究探讨了使用大型语言模型(LLM)自动识别学生实验错误并简化教师评估的潜力,以提供个性化反馈的基础。由于学生实验数据通常复杂、不完整、甚至矛盾和异质,因此识别其中的逻辑错误具有挑战性。在使用65份学生实验数据集进行测试后,研究人员开发了基于GPT-3.5和GPT-4系列的人工智能(AI)系统,并与人类评分员进行了比较研究。结果表明,AI系统和人类评分员在错误检测方面的准确性存在差异。例如,AI系统能够准确识别许多基本的学生错误,如当学生仅关注预期观察而不是因变量时(准确度=0.90),当学生在进行调查时修改试验时(准确度=1),以及学生是否可靠地进行有效的测试试验(准确度=0.82)。然而,识别其他通常更复杂的错误,例如学生是否进行了有效的对照试验(准确度=0.60),则更具挑战性。该研究不仅探讨了AI在教育环境中的实用性,还有助于了解LLM在实验等探究式学习中错误检测的能力。

内容中包含的图片若涉及版权问题,请及时与我们联系删除