- 简介在实践中,人类的预测准确性依赖于“群体智慧”效应,即通过聚合一群个体预测者的预测来显著提高对未来事件的预测。过去关于大型语言模型(LLMs)预测能力的研究表明,作为个体预测者的前沿LLMs表现不如人类群体预测比赛的黄金标准。在研究1中,我们采用由十二个LLMs组成的LLM集合方法来扩展这项研究。我们将31个二元问题的聚合LLM预测与来自三个月预测比赛的925名人类预测者的预测进行比较。我们的预先注册的主要分析显示,LLM群体的表现优于简单的无信息基准,并且与人类群体没有统计学差异。在探索性分析中,我们发现这两种方法在中等效应大小等价边界方面是等价的。我们还观察到一种顺从效应,即平均模型预测显著高于50%,尽管正负解决方案几乎平分。此外,在研究2中,我们测试了通过利用人类认知输出是否可以改善LLM预测(GPT-4和Claude 2)。我们发现,两种模型的预测准确性受益于将中位数人类预测作为信息,将准确性提高了17%至28%:尽管这会导致比简单平均人类和机器预测更不准确的预测。我们的结果表明,LLMs可以通过简单实用的预测聚合方法实现与人类群体预测比赛相媲美的预测准确性。这复制了LLMs的“群体智慧”效应,并为社会各个领域的各种应用开辟了使用LLMs的可能性。
- 解决问题评估大型语言模型在预测方面的能力,是否能够达到人类智慧的水平?
- 关键思路使用大型语言模型集合的方法,通过聚合预测结果来提高预测准确性,实现了大型语言模型的智慧集体效应,同时还发现了一些有趣的现象。
- 其它亮点论文使用了一个包含12个大型语言模型的集合来进行预测,结果显示这个集合的预测准确性不亚于由925名人类预测者组成的人类集体。此外,论文还发现了一些有趣的现象,如大型语言模型的平均预测结果明显偏向积极结果,同时还发现了将人类预测结果作为信息输入可以显著提高大型语言模型的预测准确性。
- 与本论文相关的研究包括:1.《The Wisdom of Crowds in AI: A Meta-Analysis》;2.《Ensemble Methods in Machine Learning》;3.《The Power of Human Intuition and Expertise in Forecasting》等。
沙发等你来抢
去评论
评论
沙发等你来抢