
导语
传统的AI评估主要关注最终产出——生成的图像是否新颖,文案是否有趣。但这种“黑箱评估”方法无法回答一个根本问题:AI是否真的理解了创造的过程本身?为了科学地评估AI的创造力理解能力,北京大学的研究团队开发了IEI框架,首次将复杂的组合创造力分解为识别-理解-暗示三个递进的认知层次,将AI的创造力评估从“产品质量”转向“过程理解”。研究发现AI的创造力既真实存在,又有着清晰的边界,我们不仅要看AI做出了什么,还要关注它是如何思考的,并学会与其协作,让AI帮助我们成为更好的创造者。
关键词:组合创造力,语境推理,意义建构

马煜曦丨作者
张江丨审校
当AI开始“创造”:理解还是模仿?
当AI开始“创造”:理解还是模仿?
“创意只是将事物连接起来。”当乔布斯说出这句话时,他描述的是人类独有的创造过程。如今,当GPT-4V、DALL-E 3等AI系统开始展现出令人惊讶的创意表现——能够理解变形金刚(跑车+机器人)的巧妙设计,能够创作出融合不同概念的艺术作品时,一个关键问题浮现:这些AI真的“理解”创造力吗?它们的创意表现背后,究竟是深层的认知理解,还是精巧的模式匹配?
在众多创造力形式中,组合创造力(combinational creativity)被心理学家Margaret Boden视为最基础的一种——通过有意义地结合熟悉的概念来产生新想法。从带轮行李箱(手推车+硬壳箱)到狮身人面像(人脸+狮身),这种“连接事物”的能力创造了人类文明中无数的创新作品,如图1所示。

图1:组合创造示例
传统的AI评估主要关注最终产出——生成的图像是否新颖,文案是否有趣。但这种“黑箱评估”方法无法回答一个根本问题:AI是否真的理解了创造的过程本身?我们迫切需要一种能够“透视”AI创造过程的分析方法。
为了回答这个问题,我们不能只看AI创造了什么,更要看它们是“如何”创造的。这就需要将抽象的创造过程分解为可观察、可测量的认知步骤。
“解剖”AI的创造思维过程
“解剖”AI的创造思维过程
为了科学地评估AI的创造力理解能力,北京大学的研究团队开发了IEI框架(识别-解释-暗示)[1],首次将复杂的组合创造力分解为三个递进的认知层次。这一框架基于认知科学的概念融合理论,但实现了从抽象理论到可操作测量的关键转换。
IEI框架的核心创新在于将AI的创造力评估从“产品质量”转向“过程理解”。通过三层递进的分析,我们能够精确诊断AI系统在创造力认知流程中的真实水平和具体局限。
识别层(Identification):基础概念提取能力
第一层考察AI是否能准确识别创意作品中的基本构成元素。当面对一个作品时,AI首先需要激活正确的概念表征。以变形金刚为例,系统需要同时识别出“汽车”和“机器人”两个核心概念。
这一层虽然看似基础,但准确的元素识别是理解创造力的关键前提。如果AI连基本元素都无法正确提取,那么后续的创造性理解就无从谈起。
解释层(Explanation):关系发现与连接能力
第二层深入考察AI是否真正理解“为什么这些元素能够组合”。系统需要发现概念间的深层联系——汽车和机器人都有机械结构、都能运动、都具有功能性,这些共同特征构成了创意融合的认知基础。
这一过程类似于人类进行类比推理时的思维活动:在表面不同的事物中发现深层的相似性。AI是否具备这种结构化的关系理解能力,直接关系到它对创造力本质的把握程度。
暗示层(Implication):深层意义建构能力
最高层次考察AI能否理解创意组合的文化内涵和深层寓意。变形金刚不仅是物理层面的机械组合,它还承载着科技与人性融合、保护与战斗并存等丰富的文化内涵。
这种意义理解需要广泛的文化知识和深层的语境推理能力。AI是否具备这种高级的意义建构能力,是判断其是否真正“理解”创造力的关键指标。
构建AI创造力的“认知体检”平台
构建AI创造力的“认知体检”平台
为了系统化评估AI的创造力理解能力,研究团队开发了一个新的评估基准(benchmark)。该基准包含从Pinterest等开源图片库收集的666个专业艺术家视觉拼贴(visual mashup)作品,每件作品都经过了基于IEI框架三个认知层次的专业标注。
这种设计具有重要的科学价值:
标准化测试:确保所有AI系统面对完全相同的测试材料,消除了评估中的变量干扰。
专业基准:由专业艺术家创作并标注,为AI能力评估提供了可靠的“金标准”。
层次化诊断:三层测试体系能够精确定位AI在创造力认知流程中的具体强弱环节。
例如,在一个“鱼-垃圾桶”的拼贴作品中,如图2所示:

图2:实验任务说明
识别层测试:AI能否正确识别出“鱼类”和“垃圾”两个基本概念?
解释层测试:AI能否理解两者的共同属性——都有相似的形状特征?
暗示层测试:AI能否理解这一组合对海洋污染问题的批判寓意?
这种精细化的测试框架,使得我们能够像进行医学检查一样,全面诊断AI系统的创造力理解能力。
AI创造力的“认知体检报告”
AI创造力的“认知体检报告”
通过对11个主流AI模型的系统测试,研究团队绘制出了一幅详细的“AI创造力能力图谱”,揭示了机器智能在创造力理解上的真实水平。
基础识别:AI的明显优势
在识别层面,顶级AI模型(GPT-4o)表现出了显著优势:在评估“回答的对不对”的精确率方面可以达到75.67%,在评估“识别的全不全”的召回率方面可以达到85.00%,明显超越普通人类的53.42%和70.33%,多数主流AI模型也都超越了普通人类表现,这表明AI在基础概念提取方面确实具备了可靠的能力。这种优势可能源于AI接触的大规模视觉训练数据,使其在物体识别方面具备了超人的稳定性和准确性。
关系理解:AI保持竞争力
在解释层面,AI的优势开始缩小。GPT-4o和Claude-3.5-Sonnet并列第一(74.19%),而普通人类达到69.89%。这种相对较小的差距表明,AI在理解概念间深层关系方面仍面临挑战。
此外,不同AI模型表现出明显的“认知偏好”差异——Gemini-1.5-Pro在识别任务中表现强劲,但在关系解释方面相对较弱,这暗示了不同AI系统可能采用了不同的信息处理策略。

图3:人类被试与模型在三个任务上的实验结果
意义理解:专家略胜,顶级AI紧追
在暗示层面,人类专家以78.3%的胜率领先所有测试对象,而AI系统的表现出现了明显分化:最佳AI模型(GPT-4o)达到73.5%,GPT-4V和Gemini-1.5-Pro也都超过了71%,这些顶级AI系统的表现显著超越了普通人类的51%。然而,表现较弱的AI模型(如LLaVA系列和MiniCPM)的胜率大多在20-40%区间,明显低于普通人水平。
这种复杂的能力分布揭示了几个重要发现:首先,顶级AI系统在创意理解方面确实超越了普通人的水平;其次,AI系统间存在巨大的能力差异;最后,虽然人类专家仍保持领先优势,但顶级AI已经展现出接近专家水平的创意理解能力,这种差距正在不断缩小。
跨模型的共同模式
研究还发现了AI系统的一个有趣共性:在处理不同类型的创意组合时,AI和人类表现出相似的偏好模式。融合型组合(如鱼-牙膏的特征融合)比替换型组合(如用汽水罐替换炸药)更容易被理解,这一规律在11个AI模型中的9个以及人类参与者中都得到证实。这种一致性暗示了在处理视觉创意时,可能存在某些普遍的认知难度梯度。

图4:融合型(鱼+牙膏)与替换型(汽水->炸药)组合对比
过程理解如何指导创意生成?
过程理解如何指导创意生成?
既然我们已经分析了AI在创造力理解上的表现,那么一个自然的问题是:这种过程分析的洞察能否反过来帮助AI生成更好的创意作品?在创意生成实验中,研究团队测试了这一假设:基于IEI框架的结构化思维指导是否能提升AI的创意生成质量?
他们比较了两种方法:传统的开放式创作指导与基于IEI框架的结构化过程指导。结果显示,在所有测试的图像生成模型中,IEI结构化方法都显著提升了创意质量。以表现最佳的Midjourney为例,平均排名从2.40提升至1.98。

图5:两种不同策略的生成质量与人类专家的区别
改进的本质
关键发现是这种提升的性质:统计分析显示两种方法的提示词长度并无显著差异,在IEI方法表现优异的案例中,46%的情况下提示词甚至更短。
这证明了改进源于认知步骤的完整性而非信息量的增加。两种方法的唯一区别在于IEI方法增加了“解释”环节的思考指导——引导AI明确分析为什么两个概念能够组合。这一额外的认知步骤显著提升了最终的创意生成质量。
这一发现表明,完整的创意认知流程(识别+解释+暗示)比跳过中间步骤的简化流程(识别+暗示)更能激发AI的创造潜力。
AI创造力的关键瓶颈
AI创造力的关键瓶颈
当前多模态创意流程呈现出一个突出瓶颈:文字概念到视觉实现的转换阶段。我们观察到,绝大多数生成的概念描述已经能较完整地传达主题,但其中仍有相当一部分在转成图像时质量未达预期,显示“概念构思”与“视觉落地”之间存在性能落差。引入从识别到解释、再到暗示的IEI框架后,较强的图像模型获得更明显的偏好提升:例如 Midjourney 的相关胜率提升显著(0.26→0.36),而 Stable-Diffusion-3 的提升较温和(0.15→0.18)。这表明指令解析与语义对齐能力越成熟的模型,越能从像IEI框架这种精细化的测试框架中受益。
重新思考机器智能的边界
重新思考机器智能的边界
当我们用科学的方法“解剖”AI的创造力时,得到的答案远比想象中更加复杂。这项研究告诉我们:AI的创造力既真实存在,又有着清晰的边界。
在理解层面,顶级AI的表现令人瞩目:它们在识别基础概念元素方面表现优异,在解释概念间关系方面具备强大能力,在暗示深层意义理解方面也展现出接近专家的水准。在生成层面,AI展现出了可优化的潜力,但其作品质量仍然明显逊色于人类专家的艺术创作。
这些发现最有价值的地方,不在于给AI“打分”,而在于让我们有了一个全新的观察角度。过去我们总是看AI做出了什么,现在我们开始关注它是如何思考的。这种转变让我们发现,创造力原来可以被拆解成这样具体的认知步骤,这对理解人类自己的创造过程也有启发。
有趣的是,这些研究结果揭示了一个几乎完美的互补关系:AI擅长快速分析和逻辑梳理,人类则在情感表达和文化洞察上有着天然优势。这让人想到,也许创造从来就不是单打独斗的事情,而是需要不同智慧的碰撞和融合。
或许我们一直问错了问题。与其担心“AI会不会取代人类创造力”,不如思考“AI如何帮助我们成为更好的创造者”。当我们真正了解了AI能做什么、做不了什么,我们反而能更清楚地认识人类创造力的珍贵之处——那些源于生活体验的洞察,那些无法被算法复制的文化感悟,那些只有人类才能赋予作品的温度。创造力从来不是零和游戏,而是可以相互启发的。在这个AI快速发展的时代,学会与机器协作创造,可能正是我们重新发现人类创造本质的机会。
参考文献:
1. Peng, Yongqian and Ma, Yuxi and Wang, Mengmeng and Wang, Yuxuan and Wang, Yizhou and Zhang, Chi and Zhu, Yixin and Zheng, Zilong. "Probing and Inducing Combinational Creativity in Vision-Language Models." CogSci, 2025. https://escholarship.org/uc/item/4fj0m0cw
作者:马煜曦
审核:张江 北京师范大学系统科学学院教授
出品:中国科协科普部
监制:中国科学技术出版社有限公司、北京中科星河文化传媒有限公司

AI×传播读书会
在AI快速发展的当下,AI不仅深刻影响着信息传播的方式,也为传播学研究带来了全新视角和方法。基于此,集智俱乐部联合北京师范大学许小可教授、浙江大学张子柯教授、南京大学王成军教授、深圳大学廖好副教授共同发起“AI×传播”读书会,从计算叙事、智能传播、人机传播与传播仿真四个板块向来共同探索AI与传播的前沿交叉,来深度理解传播机制和传播生态。读书会自8月23日起,每周六10:00-12:00举行,预计持续12周。欢迎扫码加入,共建“AI×传播”社区。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢