Generative AI as a metacognitive agent: A comparative mixed-method study with human participants on ICF-mimicking exam performance

简介

这项研究探讨了大型语言模型在国际教练联合会模拟考试中（一种与教练能力相关的情境判断测试）相对于人类元认知能力的表现。采用混合方法，我们评估了人类参与者和五个先进的大型语言模型（GPT-4、Claude-3-Opus 3、Mistral Large、Llama 3和Gemini 1.5 Pro）的元认知表现，包括敏感性、概率预测准确性和偏差。结果表明，在所有元认知指标上，大型语言模型表现优于人类，特别是在减少自信心方面。然而，无论是大型语言模型还是人类，在模糊情境下都表现出较少的适应性，紧密遵循预定义的决策框架。该研究表明，生成式人工智能可以有效地进行类似于人类的元认知处理，而无需意识的参与。研究的启示在于开发人工智能模拟器，以支持掌握教练能力的认知和元认知方面。更广泛地讲，这些结果的启示在于开发元认知模块，以实现更自主和直觉的人工智能系统。
图表
解决问题

研究人工智能模型与人类元认知能力的比较，探讨人工智能是否能够像人类一样进行元认知加工。
关键思路

通过混合方法评估人类参与者和五个先进的大型语言模型（LLM）在元认知表现方面的能力，结果表明LLMs在所有元认知指标上表现优于人类，特别是在减少过度自信方面。
其它亮点

实验使用了国际教练联合会（ICF）的模拟考试，同时考虑了灵敏度、概率预测准确性和偏差等元认知性能指标，结果表明LLMs在所有指标上表现优于人类。研究表明生成型人工智能可以有效地进行类似于人类的元认知加工，而无需意识。论文讨论了这些结果在开发AI模拟器方面的应用，以及在开发导向更自主和直观的AI系统的元认知模块方面的应用。
相关研究

相关研究包括：1.《GPT-3：一种自然语言处理的先进模型》；2.《人工智能的元认知：一个系统性综述》；3.《探索人工智能的元认知：可解释性、透明度和反思性的挑战》。

Generative AI as a metacognitive agent: A comparative mixed-method study with human participants on ICF-mimicking exam performance

评论