Dynamic In-context Learning with Conversational Models for Data Extraction and Materials Property Prediction

2024年05月16日
  • 简介
    自然语言处理和大型语言模型(LLMs)的出现已经彻底改变了从非结构化学术论文中提取数据的方式,但确保数据的可信性仍然是一个重大挑战。在本文中,我们介绍了一个名为PropertyExtractor的开源工具,它利用了像Google Gemini-Pro和OpenAI GPT-4这样的先进对话式LLMs,将零样本和少样本的上下文学习相结合,并使用工程提示来动态细化结构化信息层次,实现了材料性质数据的自主、高效、可扩展和准确的识别、提取和验证。我们对材料数据进行的测试表明,精确度和召回率均超过93%,误差率约为10%,突显了该工具包的有效性和多功能性。我们将PropertyExtractor应用于生成2D材料厚度的数据库,这是设备集成的关键参数。该领域的快速发展已经超过了实验测量和计算方法,造成了重大的数据差距。我们的工作填补了这一差距,并展示了PropertyExtractor作为可靠和高效的工具,用于自主生成多样化的材料性质数据库,推动了该领域的发展。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决从学术论文中提取数据的可靠性问题,介绍了一种名为PropertyExtractor的工具,利用先进的对话式大型语言模型和工程化提示,实现了自主、高效、可扩展和准确的材料属性数据提取和验证。
  • 关键思路
    PropertyExtractor利用先进的对话式大型语言模型和工程化提示,实现了自主、高效、可扩展和准确的材料属性数据提取和验证,解决了从学术论文中提取数据的可靠性问题。
  • 其它亮点
    论文介绍了PropertyExtractor工具的实现细节,包括使用先进的对话式大型语言模型、零样本和少样本学习、工程化提示等技术。实验结果表明,该工具的精度和召回率均超过93%,错误率约为10%。论文还应用PropertyExtractor生成了2D材料厚度的数据库,并指出该工具具有生成各种材料属性数据库的潜力。
  • 相关研究
    最近的相关研究包括利用自然语言处理和大型语言模型提取学术论文中的数据的研究,例如使用BERT模型进行命名实体识别和关系提取。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问