- 简介本文描述了使用GPT-4这种大型语言模型(LLM)快速进行可行性研究的过程,以(半)自动化数据提取在系统性综述中的应用。尽管最近对LLMs的兴趣激增,但仍缺乏如何设计基于LLM的自动化工具以及如何稳健地评估其性能的理解。在2023年证据综述黑客松期间,我们进行了两项可行性研究。首先,自动从人类临床、动物和社会科学领域的研究中提取研究特征。我们使用每个类别的两项研究进行提示开发,并使用十项进行评估。其次,我们使用LLM预测EBM-NLP数据集中100个摘要中标记为参与者、干预、对照和结果(PICOs)的内容。总的来说,结果表明准确率约为80%,不同领域之间存在一定的差异(人类临床82%,动物80%,人类社会科学研究72%)。因果推断方法和研究设计是数据提取中错误最多的项。在PICO研究中,参与者和干预/对照显示出较高的准确性(> 80%),结果则更具挑战性。评估是手动完成的,BLEU和ROUGE等评分方法的价值有限。我们观察到LLMs预测的变异性和响应质量的变化。本文提供了未来评估LLMs在系统性综述自动化的数据提取上的模板。我们的结果表明,使用LLMs可能有价值,例如作为第二或第三评审人。但是,在集成GPT-4这样的模型到工具中时应谨慎。对于LLM处理的每种类型的数据,进一步研究其在实际环境中的稳定性和可靠性是必要的。
- 图表
- 解决问题本论文旨在探讨使用大型语言模型(LLM)GPT-4在系统性评价中半自动化数据提取的可行性,并提出未来评估该方法的模板。
- 关键思路本论文提出使用GPT-4作为第二或第三审阅者的可能性,并指出在将GPT-4等模型整合到工具中时需要谨慎,并需要进一步研究其在实际环境中的稳定性和可靠性。
- 其它亮点论文进行了两项可行性研究,分别是从人类临床、动物和社会科学领域的研究中自动提取研究特征,以及使用LLM预测EBM-NLP数据集中100个摘要中的参与者、干预措施、对照组和结果(PICOs)标签。结果表明,GPT-4的准确率约为80%,但在不同领域之间存在一定的差异,并且因果推断方法和研究设计是提取数据项中错误最多的。评估是手动完成的,BLEU和ROUGE等评分方法的价值有限。实验设计包括了使用的数据集和开源代码。
- 最近的相关研究包括使用LLM进行自动文本分类和生成,以及在系统性评价中使用自然语言处理技术。
沙发等你来抢
去评论
评论
沙发等你来抢