Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers

2024年09月06日
  • 简介
    最近大型语言模型(LLMs)的进展引起了人们对它们加速科学发现潜力的乐观态度,越来越多的研究提出了自主生成和验证新想法的研究代理。尽管如此,没有任何评估表明LLM系统可以迈出产生新颖的专家级想法的第一步,更不用说执行整个研究过程了。我们通过建立一个实验设计来解决这个问题,该实验设计在控制混淆因素的同时评估研究思想的生成,并在专家NLP研究人员和LLM构思代理之间进行了首次直接比较。通过招募100多名NLP研究人员编写新想法和对LLM和人类想法进行盲审,我们得出了第一个关于当前LLM研究构思能力的具有统计学意义的结论:我们发现LLM生成的想法被认为比人类专家想法更新颖(p <0.05),但在可行性方面略微弱。通过仔细研究我们的代理基线,我们确定了构建和评估研究代理的开放性问题,包括LLM自我评估的失败和它们在生成方面缺乏多样性。最后,我们承认即使对专家来说,评判新颖性也可能很困难,并提出了一个端到端的研究设计,该设计招募研究人员将这些想法执行成完整的项目,使我们能够研究这些新颖性和可行性判断是否导致研究结果的实质性差异。
  • 图表
  • 解决问题
    评估大语言模型在科学研究中的创新能力,探讨其是否能够产生专家级别的新想法
  • 关键思路
    通过实验设计,对比专家和大语言模型的想法创新能力,发现大语言模型生成的想法更具创新性,但可行性略弱
  • 其它亮点
    实验设计严谨,招募了100多名专家参与评估;发现大语言模型在自我评估和生成多样性方面存在问题;提出了一个全流程的研究设计,招募研究者将想法转化为完整项目,以研究创新和可行性对研究结果的影响
  • 相关研究
    最近的相关研究包括使用大语言模型进行科学发现的研究,以及评估大语言模型在其他任务上的性能的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论