“创意”这个词,想必大家都不陌生。然而,你是否曾思考过,如何系统地定义这个我们司空见惯的概念?现实生活中,存在大量需要评估甚至大规模评判创意性的场景,比如在大语言模型时代筛选广告文案。回答这一问题,或许不仅能满足我们的好奇心,更具有广泛的实际意义。




首先,让我们思考一个简单的问题:砖块可以用来做什么?


在思考的过程中,砖块的各种用途可能会立刻浮现在你的脑海:铺路、建房、搭火炉、防身……然而,偶尔我们也会跳出常规,想到一些不那么常见却更有趣的用途。例如,能否将砖块打碎,用作拼图的零件?又或者,在为娇小玲珑的洋娃娃制作家具时,砖块的大小与形状恰好使其成为娃娃小床的理想材料。想必大多数读者都曾体会过,在苦思一道复杂难题后,读到或想出一种巧妙解法时的惊喜;而当我们发掘出某件日常物品的非寻常用途时,所感受到的愉悦或许也与之相似。


这一看似寻常的思考过程蕴含了我们今天聊的主题:发散性思考(divergent thinking)。事实上,我们也许每天都在为各种各样的决策场景进行着发散性思考。譬如,今晚吃什么?回家的路上可以顺便买什么?当前思考的问题有哪些可能的解决路径?发散性思维的关键在于“发散”,它强调尽可能多地提出不同且新颖的想法,与“头脑风暴”颇为相似。我们刚才所进行的砖块用途思考,正是发散性思维中的经典问题之一。学术界将这类任务称为“多用途任务”(Alternate Uses Task),它常被用来衡量一个人的发散性思维能力[1]


然而,单纯堆砌想法的数量是远远不够的。平凡的点子即使堆积成山,在真正棘手的问题面前仍会显得苍白无力。从发散性思维的定义可以看出,它追求的不只是“多”,更关键的是“新”,只有“新”的点子才会让我们感受到意外之喜。因此,我们自然希望发散性思维所产生的想法是具有创意的——不那么容易被大众想到,却又能巧妙地解决问题,正所谓“一把钥匙开一把锁”。这也引出了另一个重要问题,即我们在文章标题中所提出的:如何评价发散性思维所产生想法的创意性?这一问题对发散性思维研究具有重要意义。在心理学、教育学等诸多领域中,发散性思维被视为创造性思维过程的核心组成部分,常被用于评估个体的创新能力[2]。因此,在这些研究中,确立创意性的评判标准显得尤为关键。


对创意性的评价看似很主观。与“美丑”、“好恶”等概念相似,不同的人对某一事物或想法是否具有创意,很可能持有不同看法。例如,当我们初次接触某种陌生研究方法时,可能会觉得它极具创意,而在专业人员眼中或许只是基本操作。然而,人们对创意性的感知往往存在较强的正相关性[3]——一个在你看来富有创意的点子,在大多数人眼中可能同样如此。这种共识促使研究者去探索其背后的客观规律,正如法律与道德准则的建立,使我们对“好坏”有了更一致的判断。


一般认为,创意性由“原创性”(originality)和“可行性”(feasibility)共同构成[4, 5]。一个有创意的想法,应当同时具备较低的出现频率和较高的有效性。以砖块用途为例:用砖砌墙显然缺乏创意,因其原创性很低;把砖当作食物虽然听起来新奇,却违背了可行性原则。而之前提到的将砖块用作洋娃娃的小床,则可能具有一定创意——它不仅具备较强的可行性,而且大多数人不会立刻想到这一用途,因此也具有较好的原创性。尽管部分用途不像这些例子一样容易界定原创性与可行性的高低,因为这类判断本身仍带主观色彩,但至少我们获得了相对客观的评判标准,可帮助我们在一系列想法中初步建立创意性的偏序关系。Guilford 针对发散性思维提出了更全面的四个评价特征[6]


  • 流畅性(fluency):产生想法的数量;

  • 原创性(originality):想法的罕见或独特程度;

  • 灵活性(flexibility):想法的多样性;

  • 精细性(elaboration):想法的详细与完整程度。


然而,上述指标仍主要停留在定性层面。当前,创意性评估领域的一大核心挑战,正是如何将这些带有主观色彩的指标转化为可靠的定量度量。历史上,不乏成功将主观概念数学化的先例:Shannon 凭借“熵”(entropy)这一概念,开创性地量化了信息的不确定性[7];Nash 则通过纳什均衡(Nash equilibrium),为博弈论研究奠定了坚实的数学基础,成为博弈论的量化分析中的里程碑[8]。倘若我们也能找到适宜的方法,对创意性的各个维度加以量化,便有望实现对其更为客观的衡量。目前,主流研究方法依赖于基于大语言模型的技术,例如提示词工程(prompt engineering)、模型微调(fine-tuning)等方式对大量想法进行自动化创意评估,且现有实验表明这类方法产生的结果与人类评分之间具有较高的正相关性[9]。不过,它仍存在明显局限,如可解释性较差、计算成本较高。若能建立起一套对创意性标准的客观度量体系,必将推动创意评估理论的范式更新,进而使我们能够对“何为创意”这一问题,给出更加充分、坚定的回答。


参考文献:

[1] Alhashim, A. G., Marshall, M., Hartog, T., Jonczyk, R., Dickson, D., Van Hell, J., ... & Siddique, Z. (2020). Work in progress: Assessing creativity of alternative uses task responses: A detailed procedure. In 2020 ASEE Virtual Annual Conference Content Access.

[2] Baer, J. (2014). Creativity and divergent thinking: A task-specific approach. Psychology Press.

[3 Beaty, R. E., & Johnson, D. R. (2021). Automating creativity assessment with SemDis: An open platform for computing semantic distance. Behavior research methods, 53(2), 757-780.

[4] Barron, F. (1955). The disposition toward originality. The Journal of Abnormal and Social Psychology, 51, 478–485.

[5] Stein, M. I. (1953). Creativity and culture. The Journal of Psychology: Interdisciplinary and Applied, 36, 311–322.

[6] Guilford, J. P., & Hoepfner, R. (1971). The analysis of intelligence. New York, NY: McGraw-Hill.

[7] Shannon, C. E. (1948). A mathematical theory of communication. The Bell system technical journal, 27(3), 379-423.

[8] Nash Jr, J. F. (1950). Equilibrium points in n-person games. Proceedings of the National Academy of Sciences, 36(1), 48-49.

[9] Organisciak, P., Acar, S., Dumas, D., & Berthiaume, K. (2023). Beyond semantic distance: Automated scoring of divergent thinking greatly improves with large language models. Thinking Skills and Creativity, 49, 101356.


文 | 钱炜楠

图 | 朱成轩


—   版权声明  —

本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。

内容中包含的图片若涉及版权问题,请及时与我们联系删除