CT-Eval: Benchmarking Chinese Text-to-Table Performance in Large Language Models

向作者提问

NEW

简介

Text-to-Table旨在生成结构化表格以传达非结构化文档中的关键信息。现有的文本到表格数据集通常是以英语为导向的，限制了非英语语言的研究。同时，大型语言模型（LLMs）的出现已经在多语言环境下作为一般任务解决程序取得了巨大成功（例如ChatGPT），从理论上讲，使得在其他语言中进行文本到表格成为可能。本文提出了一个中文文本到表格数据集CT-Eval，以对这一任务的LLMs进行基准测试。我们对英文文本到表格数据集的初步分析强调了数据多样性和数据幻觉两个关键因素。受此启发，CT-Eval数据集选择了一种流行的中文多学科在线百科全书作为来源，并涵盖了28个领域以确保数据多样性。为了最小化数据幻觉，我们首先训练一个LLM来判断和过滤具有幻觉的任务样本，然后雇用人类标注者清理验证和测试集中的幻觉。经过这个过程，CT-Eval包含了88.6K个任务样本。使用CT-Eval，我们评估了开源和闭源LLMs的性能。我们的结果表明，零-shot LLMs（包括GPT-4）与人类判断相比仍存在显著的性能差距。此外，在微调后，开源LLMs可以显著提高其文本到表格能力，远远超过GPT-4。简而言之，CT-Eval不仅帮助研究人员评估和快速了解现有LLMs的中文文本到表格能力，而且还是显著提高LLMs文本到表格性能的宝贵资源。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文提出了一个中文文本到表格的数据集CT-Eval，以评估目前开源和闭源的大型语言模型在这一任务上的表现。此前的文本到表格数据集大多是面向英语的，限制了非英语语言的研究。本文试图填补这一空白，提供一个中文数据集。
关键思路

本文的关键思路是利用大型语言模型和人类标注相结合的方法构建数据集，并将其用于评估和比较不同的大型语言模型在中文文本到表格任务上的表现。
其它亮点

本文的亮点包括：1. 提出了一个中文文本到表格的数据集CT-Eval，以填补非英语语言领域的研究空白；2. 使用大型语言模型和人类标注相结合的方法构建数据集，避免了数据幻觉的问题；3. 通过实验比较了不同的大型语言模型在中文文本到表格任务上的表现，发现经过微调的开源语言模型的表现优于GPT-4。
相关研究

最近的相关研究包括英文文本到表格数据集的构建和大型语言模型在多语言任务中的表现。相关论文包括：《TabFact: A Large-scale Dataset for Tabular Data to Text Conversion》、《Multi-lingual Abstractive Summarization with Pointer-generator Networks》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问