使用人工智能和大型语言模型评估学生实验错误：与人类评分员的比较研究

Assessing Student Errors in Experimentation Using Artificial Intelligence and Large Language Models: A Comparative Study with Human Raters

解决问题：这篇论文旨在探究使用大型语言模型（LLMs）自动识别学生实验错误的潜力，并与人类评分员进行比较研究。其目的是为教师提供基础，以提供有效的个性化反馈。当前的评估方法存在局限性，因此自动识别学生错误的方法对于简化教师的评估是非常必要的。

关键思路：通过使用GPT-3.5和GPT-4系列构建的人工智能（AI）系统，论文探究了LLMs在识别学生实验错误方面的能力。研究结果表明，AI系统可以准确识别许多基本的学生错误，例如，当学生将假设集中在自变量而非因变量上时（acc. = 0.90），当学生在进行实验时修改试验次数（acc. = 1），以及学生是否正在进行有效的测试试验（acc. = 0.82）。然而，对于其他通常更复杂的错误，例如学生是否进行了有效的对照试验（acc. = .60），则存在更大的挑战。

其他亮点：该研究不仅探讨了AI在教育领域的实用性，还有助于了解LLMs在探究型学习（如实验）中错误检测的能力。该论文使用了65个学生协议的数据集，并与人类评分员进行了测试。论文未提及是否有开源代码。

关于作者：Arne Bewersdorff、Kathrin Seßler、Armin Baur、Enkelejda Kasneci和Claudia Nerdel是本文的主要作者。他们分别来自德国不同的机构。根据我的数据库，他们之前的代表作并未被提及。

相关研究：近期其他相关的研究包括：

"Automated Scoring of Student Essays with Deep Learning"，作者为 Sheng-Yi Wu、Yi-Hsuan Lee 和 Hsin-Min Wang，来自台湾的中央研究院。
"Automatic Grading of Programming Assignments using Machine Learning Techniques"，作者为 K. Srinivas、K. R. M. Rao 和 P. V. G. D. Prasad Reddy，来自印度的Jawaharlal Nehru Technological University。
"Assessing the Quality of Student Arguments: An Overview of Current Automated Scoring Approaches"，作者为 Arne Weßels、Katharina Scheiter 和 Alexander Renkl，来自德国的Tübingen大学。

论文摘要：该研究探讨了使用大型语言模型（LLM）自动识别学生实验错误并简化教师评估的潜力，以提供个性化反馈的基础。由于学生实验数据通常复杂、不完整、甚至矛盾和异质，因此识别其中的逻辑错误具有挑战性。在使用65份学生实验数据集进行测试后，研究人员开发了基于GPT-3.5和GPT-4系列的人工智能（AI）系统，并与人类评分员进行了比较研究。结果表明，AI系统和人类评分员在错误检测方面的准确性存在差异。例如，AI系统能够准确识别许多基本的学生错误，如当学生仅关注预期观察而不是因变量时（准确度=0.90），当学生在进行调查时修改试验时（准确度=1），以及学生是否可靠地进行有效的测试试验（准确度=0.82）。然而，识别其他通常更复杂的错误，例如学生是否进行了有效的对照试验（准确度=0.60），则更具挑战性。该研究不仅探讨了AI在教育环境中的实用性，还有助于了解LLM在实验等探究式学习中错误检测的能力。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

使用人工智能和大型语言模型评估学生实验错误：与人类评分员的比较研究

评论列表

评论