- 简介科学创新依赖于详细的工作流程,其中包括分析文献、产生想法、验证这些想法、解释结果和启发后续研究等关键步骤。然而,记录这些工作流程的科学出版物是广泛而无结构的。这使得人类研究人员和AI系统都难以有效地浏览和探索科学创新领域。为了解决这个问题,我们介绍了MASSW,这是一个关于多方面科学工作流程的综合文本数据集。MASSW包括来自17个领先的计算机科学会议的超过15.2万篇同行评审的出版物,跨越了过去50年。我们使用大型语言模型(LLMs)从这些出版物中自动提取了五个核心方面:背景、关键思想、方法、结果和预期影响,这对应于研究工作流程的五个关键步骤。这些结构化摘要有助于各种下游任务和分析。通过与人工注释进行比较,我们验证了LLM提取的摘要的质量。我们通过多个新颖的机器学习任务演示了MASSW的实用性,这些任务可以使用这个新数据集进行基准测试,从而进行各种类型的预测和建议,沿着科学工作流程进行。MASSW具有显着的潜力,可以让研究人员创建和基准测试新的AI方法,以优化科学工作流程并在该领域促进科学创新。我们的数据集可以在\url{https://github.com/xingjian-zhang/massw}上公开获取。
- 图表
- 解决问题论文旨在解决科学创新中文献的结构化和自动化问题,使得人类研究者和AI系统都能够有效地浏览和探索科学创新空间。
- 关键思路使用大型语言模型(LLMs)自动从计算机科学领域17个领先会议的152,000多篇同行评审的出版物中提取五个核心方面,即背景、关键思想、方法、结果和预期影响,这对应于研究工作流程的五个关键步骤。
- 其它亮点该论文提出了MASSW数据集,该数据集包含50年来17个领先计算机科学会议上的152,000多篇同行评审的出版物。使用LLMs,自动提取出五个核心方面,这些结构化摘要便于进行各种下游任务和分析。MASSW数据集的质量通过与人类注释进行比较得到验证。论文还展示了MASSW的实用性,通过多个新的机器学习任务来展示该数据集的基准测试,可以进行各种类型的预测和建议,促进科学创新。
- 最近在这个领域中,还有一些相关的研究,例如:ACL Anthology Network (AAN)、Semantic Scholar、CORD-19、Open Research Corpus (ORC)等。
沙发等你来抢
去评论
评论
沙发等你来抢