Has the Creativity of Large-Language Models peaked? An analysis of inter- and intra-LLM variability

2025年04月10日
  • 简介
    在2023年初ChatGPT广泛普及之后,许多研究表明,大型语言模型(LLMs)在创造性任务中可以达到甚至超越人类的表现。然而,尚不清楚这些模型的创造力是否随着时间推移有所提高,以及它们的创造性输出是否具有一致性。在本研究中,我们对14种广泛使用的大型语言模型进行了评估,其中包括GPT-4、Claude、Llama、Grok、Mistral和DeepSeek,评估方法基于两种经过验证的创造力测试:发散联想任务(DAT)和替代用途任务(AUT)。与预期相反,我们并未发现过去18至24个月内模型的创造性表现有所提升;事实上,GPT-4的表现比之前的研究结果更差。对于更为常用的替代用途任务(AUT),所有模型的平均表现均优于普通人类水平,其中GPT-4o和o3-mini表现最佳。然而,仅有0.28%的LLM生成的回答达到了人类创造力前10%的标准。 除了模型间的差异外,我们还观察到模型内部存在显著的变异性:同一模型在面对相同提示时,可能生成从低于平均水平到高度原创的多种输出。这种变异性对创造力研究及实际应用都具有重要影响。忽视这种变异性可能导致对LLMs创造性潜力的误判,从而高估或低估其能力。此外,不同的提示选择对LLMs的影响也各不相同。我们的研究结果强调了需要更加精细的评估框架,并突显了在创意场景中使用生成式人工智能(GenAI)工具时,模型选择、提示设计以及多次评估的重要性。
  • 图表
  • 解决问题
    该论文试图评估大型语言模型(LLMs)在创造力任务中的表现是否随时间有所提升,并研究其输出的一致性。这是一个重要的问题,因为尽管已有研究表明LLMs在某些创造性任务中可以超越人类,但它们的创造力变化趋势和稳定性尚未得到系统研究。
  • 关键思路
    论文通过使用两个经过验证的创造力评估工具(Divergent Association Task 和 Alternative Uses Task)对14种广泛使用的LLMs进行测试,以量化其创造力水平及变化趋势。与以往研究不同的是,本研究不仅关注模型间的差异,还深入分析了同一模型在相同提示下的输出变异性,揭示了LLMs创造力的不稳定性。
  • 其它亮点
    实验设计严谨,涉及多个主流LLM(如GPT-4、Claude等),并采用标准化的创造力评估方法。结果显示,尽管LLMs整体表现优于平均人类水平,但只有极少数输出能达到高创造力标准。此外,研究强调了提示设计和重复评估的重要性,并指出了当前评估框架的局限性。遗憾的是,论文未提及代码开源或数据集共享计划,但提出了未来可进一步研究的方向,例如更精细的评估指标和跨领域创造力任务的应用。
  • 相关研究
    近期相关研究包括:1)《Evaluating the Creative Potential of Large Language Models》探讨了LLMs在文学创作中的应用;2)《The Role of Prompt Engineering in Enhancing AI Creativity》研究了提示工程对AI创造力的影响;3)《Benchmarking Generative AI for Artistic Tasks》专注于生成式AI在艺术创作中的表现;4)《Human-Level Creativity in Machines: A Myth or Reality?》讨论了机器创造力是否能够真正达到人类水平。这些研究共同构成了理解LLMs创造力的基础。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论