Let's Ask AI About Their Programs: Exploring ChatGPT's Answers To Program Comprehension Questions

2024年04月17日
  • 简介
    最近的研究探讨了从学生提交的代码中创建问题。这些关于学习者代码的问题(QLCs)是通过程序分析、探索执行路径,然后从这些路径和更广泛的代码结构中创建代码理解问题而创建的。回答这些问题需要阅读和跟踪代码,这已被证明有助于学生的学习。同时,计算机教育研究人员也见证了大型语言模型(LLMs)的出现,这些模型在社区中引起轰动。研究人员已经证明了这些模型在介绍性编程环境中的适用性,概述了它们在解决介绍性编程问题和创建新的学习资源方面的表现。在这项工作中,我们探讨了最先进的LLMs(GPT-3.5和GPT-4)在回答LLMs创建的代码生成的QLCs的能力。我们的结果表明,尽管最先进的LLMs可以在提示时创建程序并跟踪程序执行,但它们很容易陷入之前记录过的新手程序员的类似错误。这些结果展示了这些模型的缺陷,或许也减弱了最近LLM热潮所带来的期望。同时,我们还强调了未来的研究可能性,例如使用LLMs模仿学生,因为它们的行为确实在某些特定任务中是相似的。
  • 图表
  • 解决问题
    本论文探讨了使用大型语言模型(LLMs)回答学习者代码问题(QLCs)的能力。具体而言,论文旨在验证最新的LLMs(GPT-3.5和GPT-4)是否能够回答从它们创建的代码中生成的QLCs。同时,论文也探讨了使用LLMs模仿学生行为的可能性。
  • 关键思路
    论文的关键思路是使用最新的LLMs回答QLCs,并分析LLMs的表现。结果表明,虽然LLMs能够创建程序并跟踪程序执行,但它们很容易陷入先前记录过的初学者编程错误。因此,LLMs的可靠性有限。
  • 其它亮点
    论文的实验设计包括使用GPT-3.5和GPT-4生成代码,并从中生成QLCs。结果表明,LLMs的表现不如预期。论文还探讨了使用LLMs模仿学生行为的可能性,并提出了未来研究方向。
  • 相关研究
    最近在这个领域中,也有其他研究探讨了使用LLMs进行编程。例如,有研究使用GPT-2生成Python代码,并探讨了其实用性。另外,还有研究探讨了使用LLMs进行程序理解和错误检测的可能性。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论