- 简介快速的代码生成、函数调用和数据分析是否能够利用大型语言模型(LLM)自动化搜索和验证假设,仅依靠提供的数据集?为了评估这个问题,我们提出了DiscoveryBench,这是第一个全面的基准测试,规范了数据驱动发现的多步骤过程。该基准测试旨在系统评估当前模型在发现任务中的能力,并为改进这些能力提供有用的资源。我们的基准测试包含了264个任务,涵盖了6个不同领域,例如社会学和工程学,通过手动从已发表的论文中推导出发现工作流程,以近似研究人员面临的真实挑战,每个任务由数据集、元数据和自然语言中的发现目标定义。我们还提供了903个合成任务,以进行对任务复杂度的控制评估。此外,我们的数据驱动发现的结构形式使得我们可以进行基于方面的评估,从而提供有用的洞见来了解不同的失败模式。我们使用开放和封闭的LLM作为基线,在DiscoveryBench上评估了几个流行的基于LLM的推理框架,并发现即使是最好的系统得分也只有25%。因此,我们的基准测试说明了自主数据驱动发现面临的挑战,并为社区提供了宝贵的资源来取得进展。
- 图表
- 解决问题评估大型语言模型在数据驱动发现中的应用能力,提出DiscoveryBench数据集,旨在系统性地评估当前模型在数据驱动发现中的表现,并提供改进的资源。
- 关键思路DiscoveryBench数据集是第一个系统性评估大型语言模型在数据驱动发现中表现的基准测试,其结构化规范的数据驱动发现方法可提供有用的洞察力。
- 其它亮点论文提出了DiscoveryBench数据集,包含264个真实领域和903个合成领域的数据驱动发现任务,评估了几种流行的基于大型语言模型的推理框架在该数据集上的表现,最好的系统得分仅为25%。
- 最近的相关研究包括使用大型语言模型进行数据驱动发现的研究,例如GPT-3和Turing模型等。
沙发等你来抢
去评论
评论
沙发等你来抢