Let's Ask AI About Their Programs: Exploring ChatGPT's Answers To Program Comprehension Questions

简介

最近的研究探讨了从学生提交的代码中创建问题。这些关于学习者代码的问题（QLCs）是通过程序分析、探索执行路径，然后从这些路径和更广泛的代码结构中创建代码理解问题而创建的。回答这些问题需要阅读和跟踪代码，这已被证明有助于学生的学习。同时，计算机教育研究人员也见证了大型语言模型（LLMs）的出现，这些模型在社区中引起轰动。研究人员已经证明了这些模型在介绍性编程环境中的适用性，概述了它们在解决介绍性编程问题和创建新的学习资源方面的表现。在这项工作中，我们探讨了最先进的LLMs（GPT-3.5和GPT-4）在回答LLMs创建的代码生成的QLCs的能力。我们的结果表明，尽管最先进的LLMs可以在提示时创建程序并跟踪程序执行，但它们很容易陷入之前记录过的新手程序员的类似错误。这些结果展示了这些模型的缺陷，或许也减弱了最近LLM热潮所带来的期望。同时，我们还强调了未来的研究可能性，例如使用LLMs模仿学生，因为它们的行为确实在某些特定任务中是相似的。
图表
解决问题

本论文探讨了使用大型语言模型（LLMs）回答学习者代码问题（QLCs）的能力。具体而言，论文旨在验证最新的LLMs（GPT-3.5和GPT-4）是否能够回答从它们创建的代码中生成的QLCs。同时，论文也探讨了使用LLMs模仿学生行为的可能性。
关键思路

论文的关键思路是使用最新的LLMs回答QLCs，并分析LLMs的表现。结果表明，虽然LLMs能够创建程序并跟踪程序执行，但它们很容易陷入先前记录过的初学者编程错误。因此，LLMs的可靠性有限。
其它亮点

论文的实验设计包括使用GPT-3.5和GPT-4生成代码，并从中生成QLCs。结果表明，LLMs的表现不如预期。论文还探讨了使用LLMs模仿学生行为的可能性，并提出了未来研究方向。
相关研究

最近在这个领域中，也有其他研究探讨了使用LLMs进行编程。例如，有研究使用GPT-2生成Python代码，并探讨了其实用性。另外，还有研究探讨了使用LLMs进行程序理解和错误检测的可能性。

Let's Ask AI About Their Programs: Exploring ChatGPT's Answers To Program Comprehension Questions

评论