MALLM-GAN: Multi-Agent Large Language Model as Generative Adversarial Network for Synthesizing Tabular Data

2024年06月15日
  • 简介
    在大数据时代,获取大量数据对于推动研究至关重要。然而,由于隐私问题或高昂的成本,这样的数据通常是无法访问的,尤其是在医疗领域。生成合成(表格)数据可以解决这个问题,但是现有的模型通常需要大量数据才能有效训练,这与我们解决数据稀缺的目标相矛盾。为了解决这个挑战,我们提出了一个新的框架来生成合成表格数据,由大型语言模型(LLM)驱动,模拟生成对抗网络(GAN)的架构。通过将数据生成过程作为上下文信息并利用LLM作为优化器,我们的方法显着提高了在小样本情况下生成合成数据的质量。我们在公共和私人数据集上的实验结果表明,我们的模型在生成更高质量的合成数据以用于下游任务并保持真实数据的隐私方面,优于几种最先进的模型。
  • 作者讲解
  • 图表
  • 解决问题
    生成小样本合成数据的挑战
  • 关键思路
    利用大型语言模型生成合成数据
  • 其它亮点
    使用大型语言模型作为优化器,利用数据生成过程的上下文信息,提高生成小样本数据的质量,实验结果表明该模型在生成高质量数据方面表现优异
  • 相关研究
    最近的相关研究包括:1. "Generating Synthetic Data using Variational Autoencoder" 2. "Synthetic Data Generation using Generative Adversarial Networks"
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问