Statements: Universal Information Extraction from Tables with Large Language Models for ESG KPIs

2024年06月27日
  • 简介
    环境、社会和治理(ESG)关键绩效指标评估组织在气候变化、温室气体排放、用水量、废物管理、人权、多样性和政策等问题上的表现。ESG报告通过表格传达这些有价值的定量信息。不幸的是,由于表格结构和内容的高度变异,提取这些信息是困难的。我们提出了Statements,一种新颖的领域无关数据结构,用于提取定量事实和相关信息。我们建议将表格翻译成语句,作为一项新的监督式深度学习通用信息提取任务。我们介绍了SemTabNet——一个拥有超过10万个注释表格的数据集。通过调查基于T5的Statement Extraction Models家族,我们的最佳模型生成的语句与基准值相比,相似度高达82%(基准值为21%)。我们通过将模型应用于ESG报告中的2700多个表格来展示语句的优势。语句的同质性允许对大量ESG报告中发现的广泛信息进行探索性数据分析。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决环境、社会和治理(ESG)报告中表格结构和内容的高度变异性所带来的信息提取难题,提出了一种新的数据结构——Statements,并通过SemTabNet数据集进行了验证。
  • 关键思路
    论文提出了将表格转化为Statements的方法,并使用T5-based Statement Extraction Models进行训练,得到了82%的相似度,解决了ESG报告中的信息提取问题。
  • 其它亮点
    论文提出了一种新的数据结构Statements,使得ESG报告中的信息提取变得更加容易。实验使用了SemTabNet数据集,并使用T5-based Statement Extraction Models进行训练,实现了82%的相似度。该方法的应用有助于更好地理解ESG报告中的信息,也有望在其他领域得到应用。
  • 相关研究
    在ESG报告信息提取领域,之前的研究大多集中在表格结构的分析和文本信息的提取上,如TableMiner++和FinMiner。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问