- 简介大型语言模型(LLMs)在自动化生成各种计算环境下的反馈方面表现出巨大潜力。然而,人们对将学生作品发送给专有模型的隐私和道德影响提出了担忧。这引发了对在教育中使用开源LLMs的广泛兴趣,但这些开源模型产生的反馈质量仍未得到充分研究。这是一个问题,因为提供有缺陷或误导性的生成反馈可能会对学生的学习产生不利影响。受到最近利用GPT-4等非常强大的LLMs评估较弱模型输出的工作的启发,我们对来自入门编程课程的数据集进行了几个开源模型产生的反馈质量的自动分析。首先,我们研究了使用GPT-4作为自动评估器的可行性,通过将其评估与人类专家的评估进行比较。我们观察到GPT-4表现出对反馈进行正面评价的偏见,同时与人类评分者表现出中等一致性,展示了它作为反馈评估器的潜力。其次,我们使用GPT-4评估了几个领先的开源LLMs产生的反馈质量。我们发现,一些模型与ChatGPT等流行的专有LLMs具有竞争力,表明它们在教育设置中的负责任使用的机会。
-
- 图表
- 解决问题本论文旨在解决使用开源LLMs生成反馈的质量问题,并探索使用GPT-4作为自动评估器的可行性。
- 关键思路本论文采用GPT-4作为自动评估器,对多个开源LLMs生成的反馈进行了评估,并发现其中一些模型的表现与专有LLMs相当。
- 其它亮点论文通过比较GPT-4和人类专家的评估结果,发现GPT-4对反馈的正面评价存在偏差,但与人类评估者存在中等程度的一致性。论文还探索了多个开源LLMs生成反馈的质量,并发现其中一些模型表现出色。实验使用了一个来自入门编程课程的数据集。
- 最近的相关研究包括使用GPT-4评估其他模型的输出,以及关于使用LLMs生成反馈的隐私和伦理问题的讨论。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流