A Chain-of-Thought Prompting Approach with LLMs for Evaluating Students' Formative Assessment Responses in Science

简介

本文探讨了利用大型语言模型（LLMs）对K-12科学中的简答题进行评分和解释的方法。虽然现有的方法可以对结构化的数学和计算机科学考试进行评分，但它们通常不提供评分的解释。我们的研究重点是在初中地球科学中使用GPT-4进行自动化评估，结合少量样本和思维链的主动学习。采用人机协同的方法，我们成功地对形成性评估作出评分并提供有意义的解释。对我们方法的优缺点进行系统分析，揭示了人机协同技术增强开放性科学评估的自动评分潜力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在探讨使用大语言模型（LLMs）对K-12科学短答案评估进行评分和解释。
关键思路

使用人机协作的方法，结合少量样本和主动学习，成功地对中学地球科学作出了自动评分，并提供了有意义的解释。
其它亮点

论文使用GPT-4进行评估，并进行了系统分析。实验结果显示，人机协作技术有助于提高开放式科学评估的自动评分效果。
相关研究

最近的相关研究包括使用机器学习方法进行自动评分的研究，如基于神经网络和贝叶斯网络的方法。