Group-wise Prompting for Synthetic Tabular Data Generation using Large Language Models

简介

本研究介绍了一种简单而有效的方法，利用大型语言模型（LLMs）生成合成数据，特别是解决数据不平衡问题。我们提出了一种新颖的分组提示方法，采用CSV格式，利用LLMs的上下文学习能力生成数据，以满足目标数据集的指定要求和特征。此外，我们提出的随机单词替换策略显著提高了对单调分类值的处理，增强了合成数据的准确性和代表性。我们的方法在八个真实世界的公共数据集上得到了广泛验证，在保持特征间相关性和提高标记效率的同时，实现了下游分类和回归任务的最新性能，这一进展在解决机器学习应用的关键挑战方面具有重要意义，特别是在表格数据生成和处理类别不平衡方面。我们的工作源代码可在以下网址找到：https://github.com/seharanul17/synthetic-tabular-LLM。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决机器学习中生成合成表格数据的问题，特别是针对数据不平衡问题。这是否是一个新问题？
关键思路

本文提出了一种利用大型语言模型生成合成数据的简单而有效的方法，采用CSV格式的分组提示方法，利用LLM的上下文学习能力生成符合目标数据集要求和特征的数据。此外，本文提出的随机词语替换策略显著改善了单调分类值的处理，提高了合成数据的准确性和代表性。
其它亮点

本文的方法在八个真实世界的公共数据集上进行了广泛验证，在维持特征之间的相关性和提高令牌效率方面，实现了最先进的性能。此外，本文的代码已经开源。
相关研究

最近的相关研究包括使用生成对抗网络来生成合成数据的方法，以及使用变分自编码器来生成表格数据的方法。

Group-wise Prompting for Synthetic Tabular Data Generation using Large Language Models

提问交流

提问交流