How critically can an AI think? A framework for evaluating the quality of thinking of generative artificial intelligence

简介

生成式人工智能（如具有大型语言模型的人工智能）为创新的评估设计提供了机会。由于最近的技术发展，需要了解生成式人工智能在模拟认知技能方面的限制和能力。评估学生的批判性思维能力是评估的一个特点，但数字评估的要求为公平性、学术诚信和评估创作权带来了独特的挑战。教育工作者需要一个框架来确定他们的评估易受生成式人工智能攻击的程度，以指导评估设计实践。本文提出了一种框架，探讨了当前行业标准的LLM ChatGPT4应用程序的能力。本文提出了映射问题、AI易受攻击性测试、分级、评估（MAGE）框架，以系统地批判他们自己学科背景下的评估。这种批判将提供关于他们的问题易受攻击的具体和有针对性的指示，以评估批判性思维技能。这可以成为他们任务评估设计的基础。
图表
解决问题

评估生成式人工智能在模拟认知技能方面的能力，为教育者提供评估设计框架
关键思路

提出了一种评估设计框架（MAGE），使用ChatGPT4应用程序评估问题的脆弱性，从而确定其在关键思维技能方面的模拟能力
其它亮点

使用ChatGPT4应用程序评估了问题的脆弱性，并提供了特定的指示，以确定问题在关键思维技能方面的模拟能力，为评估设计提供了基础
相关研究

最近的相关研究包括：《生成式人工智能在教育测量中的应用》、《使用人工智能评估学生写作的可读性》、《基于人工智能的教育测量：技术、实践和政策》等

How critically can an AI think? A framework for evaluating the quality of thinking of generative artificial intelligence

评论