VisEval: A Benchmark for Data Visualization in the Era of Large Language Models

简介

将自然语言转化为可视化（NL2VIS）已经显示出在视觉数据分析方面具有巨大的潜力，但它仍然是一个具有挑战性的任务，需要多个低层次的实现，例如自然语言处理和可视化设计。最近预训练的大型语言模型（LLMs）的进展正在为从自然语言生成可视化开辟新的途径。然而，缺乏全面可靠的基准测试阻碍了我们对LLMs在可视化生成方面能力的理解。在本文中，我们通过提出一个名为VisEval的新的NL2VIS基准测试来解决这个问题。首先，我们介绍了一个高质量和大规模的数据集。该数据集包括2,524个代表性查询，涵盖了146个数据库，并配有准确标记的基本事实。其次，我们提倡采用全面的自动化评估方法，包括有效性、合法性和可读性等多个方面。通过使用多种异构检查器系统地扫描潜在的问题，VisEval提供了可靠和可信的评估结果。我们对一系列最先进的LLMs运行了VisEval。我们的评估揭示了普遍存在的挑战，并提供了未来进展的重要见解。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一个全面可靠的基准测试VisEval，以评估大型语言模型在将自然语言转化为可视化方面的能力。
关键思路

VisEval基准测试包括一个高质量的大规模数据集和一个全面的自动化评估方法，涵盖有效性、合法性和可读性等多个维度。
其它亮点

数据集包含2,524个代表性查询，覆盖146个数据库，并配有准确标注的基准答案。实验使用了多种异构检查器，提供可靠的评估结果。论文还探讨了当前大型语言模型在可视化生成方面的挑战和未来发展方向。
相关研究

近期的相关研究包括：《Large-Scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline》、《Neural Network Models for Tabular Data with Column Interactions》等。

VisEval: A Benchmark for Data Visualization in the Era of Large Language Models

提问交流

提问交流