新智元报道  

编辑:润
【新智元导读】最新研究表明,ChatGPT大学课堂表现优于学生。老师愿意自己使用ChatGPT帮助自己工作,但是学生使用就会认定为作弊。不过长远来看,学生和老师都认为ChatGPT将对教学带来积极影响。

ChatGPT在学校里到底能不能用,该怎么用?

针对这个问题教育界,监管部门,学生各执一词。

某些高校部分专业,因为找不到防止学生采用ChatGPT作弊的方式,直接把执行多年的Take Home考试给禁了,所有考试回到一张纸一支笔的年代。

为了更好地研究ChatGPT对于课堂教学的影响,纽约大学的研究人员针对不同国家的学生和老师,对他们的课堂表现和使用ChatGPT的意愿进行了非常详细的调查研究,调查结果登上Nature。
研究人员发现,在9个专业中,ChatGPT的课堂表现超过普通学生。
教授认为,在学校中使用ChatGPT,能让自己更好地教学。但是对于让学生使用ChatGPT学习,完成作业,却非常不支持,会将使用ChatGPT的学生视为作弊或者抄袭。
研究人员发现,在9个专业中,ChatGPT的课堂表现超过普通学生。
教授认为,在学校中使用ChatGPT,能让自己更好地教学,但是对于让学生使用ChatGPT学习,完成作业,却非常不支持,会将使用ChatGPT的学生视为作弊或者抄袭。

研究人员通过将ChatGPT与来自8个学科的32门大学水平课程的学生的表现进行比较,来研究ChatGPT作为抄袭工具的潜力。

此外,研究人员评估了专门用于检测ChatGPT生成文本的现有算法,并评估了可用于逃避此类算法的混淆攻击的有效性。

为了更好地了解学生和教育工作者对ChatGPT的效用以及使用ChatGPT所产生的道德和规范问题的看法,研究人员调查了来自五个国家的参与者:巴西、印度、日本、英国和美国。

此外,研究人员对作者所在机构的151名本科生和60名教授进行了更广泛的调查,以探索不同学科对ChatGPT的看法差异。

研究人员发现,ChatGPT的表现与32门课程中的9门课程的学生相当,甚至更好。

此外,研究人员发现当前的检测算法倾向于将人类答案错误地分类为人工智能生成的答案,并将ChatGPT答案错误地分类为人工生成的答案。

更糟糕的是,混淆攻击使这些算法无效,无法检测95%的ChatGPT答案。最后,在学生和教育工作者之间似乎都有一个共识,即他们打算在他们的作业中使用ChatGPT,而将其视为剽窃。

这两者之间的内在冲突给教育机构提出了紧迫的挑战,要求他们制定与生成式人工智能相关的适当的学术诚信政策,特别是与ChatGPT相关的政策。

研究人员的研究结果提供了及时的见解,可以指导围绕生成式人工智能时代教育改革的政策讨论。

论文

研究人员从探索生成式人工智能解决大学水平考试和家庭作业的当前能力开始。为此,研究人员联系了纽约大学阿布扎比分校(New York University Abu Dhabi)的教职员工,请他们提供他们在该大学教授的课程中的10个问题,以及每个问题随机抽取的三名学生的答案。

此外,对于每门课程,ChatGPT用于生成10个问题中的每个问题的三个不同答案。

然后,学生和ChatGPT的答案按随机顺序汇编成一份文件,标记为「提交1」到「提交6」。

然后,每一份提交的材料都由三个不同的评分员打分,这些评分员是由教过这门课的教员招募的,并补充表1以了解评级间的信度。虽然大多数课程的评分者间信度大于0.6,但32门课程中有6门没有达到这个阈值。

这六门课程中有四门是基于论文的,本质上是主观的,这可以解释这种差异。

然而,剩下的两门课程(以人为中心的数据科学和面向对象的编程)不是。尽管如此,如果研究人员从分析中排除这两种过程,会看到质量上相似的结果。

计算结果见上图a。除了数学和经济学,每个学科ChatGPT成绩至少有一门课程的成绩与学生相当,甚至超过学生。

这些课程是:「数据结构」,「公共政策概论」,「定量合成生物学」,「网络面向对象的程序设计」,「土木工程材料的结构和性能」,「生物心理学」,「气候变化」,「管理和组织」。

作为稳定性验证,研究人员标准化了每门课程的每个评分者给出的分数,从而能够考量不同年级的影响,同样还是发现ChatGPT的表现与上述九门课程的学生相当,甚至更好。

在分析了ChatGPT在不同课程上的表现之后,研究人员现在对其表现如何随不同的认知和知识水平而变化进行探索性分析。

为此,研究人员要求参与调查的教师详细说明他们的每个问题在安德森和克拉斯沃尔分类法的「知识」和「认知过程」维度中的位置。关于构成每个维度的级别的描述,请参见下表。分析结果下图b所示。

有趣的是,在要求高水平知识和认知过程的问题上,与要求中级水平的问题相比,ChatGPT和学生之间的表现差距要小得多。

ChatGPT在需要创造力的问题上的表现——认知过程维度的最高水平——平均得分为7.5分,而学生的平均得分为7.9分。

ChatGPT唯一比学生表现更好的问题,是那些需要事实性知识的问题,这说明它接受过大量的数据训练。最后,研究人员比较了ChatGPT针对不同类型问题的能力。为此,对于每个问题,研究人员要求参与的教师说明问题是否:

(1)涉及数学

(2)涉及代码片段

(3)需要了解特定作者、论文/书籍或特定技术/方法

(4)是否是一个刁钻的问题

结果总结在下图中。

同样,研究人员发现ChatGPT和学生之间最大的成绩差距是与数学相关的问题,其次是那些刁钻的问题。就目前而言,人类似乎在这些领域的表现优于ChatGPT。

教育工作者如何看待ChtaGPT的使用?

研究人员在巴西、印度、日本、英国和美国这五个国家进行了一项全球调查,每个国家至少有100名教育工作者和200名学生。有关详细信息,请参阅方法。下图是研究人员研究结果的总结。

在深入研究这一分析之前,应该注意到研究人员调查的学生和教育工作者来自不同的教育水平。

因此,研究人员只关注本科生和研究生,以及大学教育工作者,并发现了大致相似的结果。

研究人员首先比较不同国家的学生和教育工作者的反应。

每个图对应于调查中的一个不同问题,询问受访者在多大程度上同意或不同意关于ChatGPT的特定陈述(强烈不同意,不同意,中性,同意,强烈同意)。

研究人员将陈述分为三大类:

(1)小组a:在教育环境中使用ChatGPT的道德问题。

(2)小组b:ChatGPT对未来工作的影响。

(3)小组c:ChatGPT对教育不平等的影响。

小组a(道德),似乎有一个共识——在学校作业中使用ChatGPT应该得到认可。相比之下,当涉及到确定在家庭作业中使用ChatGPT是否不道德以及是否应该禁止在学校工作中使用ChatGPT时,意见不一。

例如,印度和美国的学生认为这是不道德的,应该被禁止,而巴西的学生则认为相反。

小组b(工作)的问题中,五个国家的学生都认为他们可以将日常任务交给ChatGPT来完成,巴西和印度的教育工作者似乎也同意这一说法。

印度是唯一一个教育工作者认为需要ChatGPT来提高他们在工作中的竞争力的国家,印度的学生也最同意这一说法。此外,印度的教育工作者和学生是唯一担心ChatGPT将来会抢走他们工作的人群。

就小组c(不平等)问题,人们似乎都认为ChatGPT会提高非英语母语学生的竞争力。当谈到ChatGPT是否会减少教育不平等时,巴西和日本(研究人员样本中的两个非英语国家)的教育工作者同意这一说法,而其余三个国家的教育工作者则不同意。

研究人员比较了教育工作者和学生对以下问题的回答分布:

「你认为你的学生/同龄人中有多少人会在学习中使用ChatGPT ?」结果如下图所示,其中教育者和学生的反应分布分别用橙色和蓝色表示,相同颜色的垂直线代表均值。

黑色竖线代表回答「是」的学生的百分比:

「考虑到你下学期的学习,你会使用ChatGPT来帮助你的学习吗?」 正如第四行所示,代表了五个国家的平均反应,74%的学生表示他们会使用ChatGPT(黑线),而教育工作者和学生都低估了这一比例。

对于表示会使用它的学生(74%),他们的主要原因是提高他们的技能和节省时间(下图)。至于那些说他们不会使用ChatGPT的人(26%),他们的主要原因是不知道如何使用或不需要它,而不是害怕被惩罚或不道德的行为。

最后,研究人员进行OLS回归分析,以探讨哪些因素可能与学生在下一个学期的学习中使用ChatGPT的决定有关。

上图总结了几个感兴趣的独立变量的结果。

可以看出,来自巴西和印度的学生比来自美国的学生更有可能使用ChatGPT,而来自日本的学生使用ChatGPT的可能性要小得多。

至于以前使用ChatGPT的经验,那些使用过它的人更有可能再次使用它。相反,仅仅听说ChatGPT与学生决定使用它来帮助他们的学习并没有显著的联系。

最后,与上层阶级的学生相比,来自贫困和工人阶级背景的学生更有可能表示他们会在学习中使用ChatGPT。

高校师生如何看待在学校中使用ChatGPT?


在分析了全球调查之后,研究人员现在将注意力转移到在作者所在机构纽约大学进行的第二项调查。这次调查的范围比前一次调查要小,但主要以大学生和教授为对象,可以观察学生的平均成绩和教授的聘用方式的差异。

上图a描述了151名学生(y轴)和60名教授(x轴)对前面讨论的8个陈述的回应,分为三大类:

(1)在教育背景下使用ChatGPT的道德规范(红色)

(2)科技对未来就业的影响(绿色)

(3)ChatGPT对教育不平等的影响(蓝色)

可以看出,与学生相比,教授对于ChatGPT使用的态度更加缓和。(所有红色数据点如何落在对角线下半部分),但是教授相比于学生,认为ChatGPT在就业和公平性方面将会发挥更大的作用。

尽管存在这些差异,教授和学生似乎都认为应该使用ChatGPT,而且都不认为它会夺走他们未来的工作。

上图显示了学生是否计划使用ChatGPT来辅助他们的作业(前两行),以及他们是否认为应该使用ChatGPT来辅助他们的作业(最后两行)。

大多数学生计划使用ChatGPT来辅助他们的作业(57%),并期望他们的同龄人使用它来达到这个目的(64%)。此外,大多数人认为应该使用ChatGPT(61%),并期望他们的同龄人认为应该使用ChatGPT(55%)来协助完成作业。

同样地,上图描述了教授是否打算将ChatGPT的使用视为剽窃(前两行),以及他们是否认为应该将ChatGPT的使用视为剽窃(最后两行)。

大多数教授计划将使用ChatGPT视为剽窃(69%),并期望其他人也这样做(71%)。

此外,大多数人认为使用ChatGPT应该被视为抄袭(72%),并期望他们的同龄人也这样认为(73%)。

上图中,研究人员还比较了不同学科、GPA和社会经济地位的学生使用ChatGPT学习的意愿。

从不同学科来看,所有四个学科的大多数学生都表示他们计划使用ChatGPT。

至于GPA,除了那些不愿意透露自己GPA的学生外,所有GPA等级中的大多数学生都表示他们会使用这个工具。

同样,对于不同社会经济地位的学生来说,大多数学生都提到他们会使用ChatGPT。

而教授们的观点体现在上图中。如图所示,除了工程专业以外的其他学科,大部分教师都认为在作业中使用ChatGPT是抄袭。

在不同教学经验的教授,大多数教授都这样认为,不管他们的经验如何。

同样,对于不同职称的教授,大多数教授都同意将使用ChatGPT视为剽窃。

在学校使用ChatGPT能否被有效识别出来?

研究人员使用了两个分类器,即GPTZero和OpenAI自己的AI文本分类器,这两个分类器都是专门用于确定是否使用AI生成了文本体。

上图显示了研究人员使用这两个分类器来量化被错误分类为ChatGPT的人类创作内容的百分比,以及被错误分类为人类的ChatGPT生成内容的比例。

OpenAI的Text Classifier将5%的学生提交的内容错误地判定为人工智能生成的,而ChatGPT的49%的提交内容错误地判定为人工生成的。GPTZero的假阳性率较高(18%),假阴性率较低(32%)。

结合研究人员之前写过的文章,总结起来,就是AI生成的文本和人类创作的文本几乎不可能被有效判定出来。

这也是为什么OpenAI将自己的检测器下架的原因。

那进一步说明了,对于ChatGPT在学校中的使用情况,老师和学生都没办法证明自己到底用还是没用AI辅助。

参考资料:
https://www.nature.com/articles/s41598-023-38964-3