- 简介高效地从科学文献中提取数据对于构建大规模数据库至关重要。然而,材料科学论文中报告的表格形式多种多样,因此基于规则的提取方法是一种无效的方法。为了克服这个挑战,我们提出了MaTableGPT,这是一种从材料科学文献中提取表格数据的基于GPT的方法。MaTableGPT具有关键的表格数据表示和表格拆分策略,以便于GPT的理解和通过后续问题过滤虚假信息。当应用于大量的水分解催化文献时,MaTableGPT实现了高达96.8%的提取准确率(总F1分数)。通过对零-shot、少-shot和微调学习方法的GPT使用成本、标记成本和提取准确率的综合评估,我们提出了一个帕累托前沿映射,其中发现少-shot学习方法是最平衡的解决方案,因为它既具有高提取准确率(总F1分数> 95%),又具有低成本(GPT使用成本为5.97美元,标记成本为10个I / O配对示例)。MaTableGPT生成的数据库进行的统计分析揭示了水分解文献中报告的催化剂的过电位和元素利用率分布的有价值的见解。
-
- 图表
- 解决问题MaTableGPT试图解决从材料科学文献中提取数据的问题,特别是在高度多样化的表格形式下,规则提取是一种无效的方法。
- 关键思路MaTableGPT是一种基于GPT的表格数据提取工具,采用关键策略进行表格数据表示和拆分,通过后续问题过滤虚假信息。
- 其它亮点MaTableGPT在大量水分解催化文献中实现了高达96.8%的提取准确率,使用零样本、少样本和微调学习方法进行综合评估,发现少样本学习方法是最平衡的解决方案。该工具生成的数据库揭示了水分解文献中催化剂的过电位和元素利用率分布。
- 目前在这个领域中,还有一些相关研究,例如“Graph-Driven Extraction of Scientific Tabular Data”和“TableNet: Deep Learning model for end-to-end Table detection and Tabular data extraction from Scanned Document Images”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流