Generative AI as a metacognitive agent: A comparative mixed-method study with human participants on ICF-mimicking exam performance

2024年05月07日
  • 简介
    这项研究探讨了大型语言模型在国际教练联合会模拟考试中(一种与教练能力相关的情境判断测试)相对于人类元认知能力的表现。采用混合方法,我们评估了人类参与者和五个先进的大型语言模型(GPT-4、Claude-3-Opus 3、Mistral Large、Llama 3和Gemini 1.5 Pro)的元认知表现,包括敏感性、概率预测准确性和偏差。结果表明,在所有元认知指标上,大型语言模型表现优于人类,特别是在减少自信心方面。然而,无论是大型语言模型还是人类,在模糊情境下都表现出较少的适应性,紧密遵循预定义的决策框架。该研究表明,生成式人工智能可以有效地进行类似于人类的元认知处理,而无需意识的参与。研究的启示在于开发人工智能模拟器,以支持掌握教练能力的认知和元认知方面。更广泛地讲,这些结果的启示在于开发元认知模块,以实现更自主和直觉的人工智能系统。
  • 图表
  • 解决问题
    研究人工智能模型与人类元认知能力的比较,探讨人工智能是否能够像人类一样进行元认知加工。
  • 关键思路
    通过混合方法评估人类参与者和五个先进的大型语言模型(LLM)在元认知表现方面的能力,结果表明LLMs在所有元认知指标上表现优于人类,特别是在减少过度自信方面。
  • 其它亮点
    实验使用了国际教练联合会(ICF)的模拟考试,同时考虑了灵敏度、概率预测准确性和偏差等元认知性能指标,结果表明LLMs在所有指标上表现优于人类。研究表明生成型人工智能可以有效地进行类似于人类的元认知加工,而无需意识。论文讨论了这些结果在开发AI模拟器方面的应用,以及在开发导向更自主和直观的AI系统的元认知模块方面的应用。
  • 相关研究
    相关研究包括:1.《GPT-3:一种自然语言处理的先进模型》;2.《人工智能的元认知:一个系统性综述》;3.《探索人工智能的元认知:可解释性、透明度和反思性的挑战》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论