Evaluating Students' Open-ended Written Responses with LLMs: Using the RAG Framework for GPT-3.5, GPT-4, Claude-3, and Mistral-Large

2024年05月08日
  • 简介
    评估学生的开放性书面考试答案是教育工作者必须进行的重要而耗时的任务,需要高度的努力、一致性和精确性。最近大型语言模型(LLMs)的发展为平衡全面评估和高效利用教育工作者时间提供了有希望的机会。在我们的研究中,我们探讨了ChatGPT-3.5、ChatGPT-4、Claude-3和Mistral-Large等LLMs在评估大学生对所学参考资料的开放性答案方面的有效性。每个模型被要求在两种条件下重复评估54个答案:10次(10-shot)温度设置为0.0和10次温度设置为0.5,每个模型预计总共评估1080次,所有模型总共评估4320次。使用RAG(检索增强生成)框架作为框架,使LLMs处理答案的评估。截至2024年春季,我们的分析显示,所研究的LLMs在一致性和评分结果方面存在显著的差异。需要了解LLMs在教育环境中评估开放性书面答案的优点和缺点。进一步的比较研究对于确定使用LLMs进行教育评估的准确性和成本效益至关重要。
  • 图表
  • 解决问题
    研究使用大型语言模型(LLMs)评估学生开放性问题答案的效果和准确性,并探索在教育评估中使用LLMs的优势和局限性。
  • 关键思路
    使用ChatGPT-3.5、ChatGPT-4、Claude-3和Mistral-Large等LLMs对学生开放性问题答案进行评估,使用RAG框架处理答案评估,发现LLMs在教育评估中具有显著的一致性和评分结果差异。
  • 其它亮点
    实验结果表明,不同的LLMs在评估学生答案时存在差异,需要更深入的研究来确定使用LLMs进行教育评估的准确性和成本效益。研究使用了54个答案,每个模型评估了每个答案10次,总共进行了4,320次评估。论文提供了对LLMs在教育领域评估的优势和局限性的深入探讨。
  • 相关研究
    最近的相关研究包括使用LLMs进行文本生成和自然语言处理,以及使用机器学习技术进行教育评估的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论