Statements: Universal Information Extraction from Tables with Large Language Models for ESG KPIs

向作者提问

NEW

简介

环境、社会和治理（ESG）关键绩效指标评估组织在气候变化、温室气体排放、用水量、废物管理、人权、多样性和政策等问题上的表现。ESG报告通过表格传达这些有价值的定量信息。不幸的是，由于表格结构和内容的高度变异，提取这些信息是困难的。我们提出了Statements，一种新颖的领域无关数据结构，用于提取定量事实和相关信息。我们建议将表格翻译成语句，作为一项新的监督式深度学习通用信息提取任务。我们介绍了SemTabNet——一个拥有超过10万个注释表格的数据集。通过调查基于T5的Statement Extraction Models家族，我们的最佳模型生成的语句与基准值相比，相似度高达82%（基准值为21%）。我们通过将模型应用于ESG报告中的2700多个表格来展示语句的优势。语句的同质性允许对大量ESG报告中发现的广泛信息进行探索性数据分析。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决环境、社会和治理（ESG）报告中表格结构和内容的高度变异性所带来的信息提取难题，提出了一种新的数据结构——Statements，并通过SemTabNet数据集进行了验证。
关键思路

论文提出了将表格转化为Statements的方法，并使用T5-based Statement Extraction Models进行训练，得到了82%的相似度，解决了ESG报告中的信息提取问题。
其它亮点

论文提出了一种新的数据结构Statements，使得ESG报告中的信息提取变得更加容易。实验使用了SemTabNet数据集，并使用T5-based Statement Extraction Models进行训练，实现了82%的相似度。该方法的应用有助于更好地理解ESG报告中的信息，也有望在其他领域得到应用。
相关研究

在ESG报告信息提取领域，之前的研究大多集中在表格结构的分析和文本信息的提取上，如TableMiner++和FinMiner。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问