Large Language Model as Attributed Training Data Generator: A Tale of Diversity and Bias

Yue Yu, Yuchen Zhuang, Jieyu Zhang, Yu Meng, Alexander Ratner, Ranjay Krishna, Jiaming Shen, Chao Zhang
[Georgia Tech & University of Washington & UIUC]

大型语言模型作为属性化训练数据生成器

  • 动机:大型语言模型(LLM)最近被用作各种自然语言处理(NLP)任务的训练数据生成器。然而,其通常依赖于简单的类条件提示,这可能限制了生成数据的多样性并继承了LLM的系统偏差。因此,本文研究了使用多样化属性提示(例如,指定长度和风格等属性)进行训练数据生成,有可能产生多样化和具有属性的生成数据。
  • 方法:提出一种使用多样化属性提示的数据生成方法。对于给定的分类任务,首先通过LLM的帮助,以交互式、半自动化的方式识别属性维度及其对应的属性值。然后,通过随机组合属性来生成多样化的提示,替换了通常用于从LLM查询数据的简单类条件提示。
  • 优势:在四个分类任务上,通过测量使用两种情况下训练的模型的性能来实证评估生成的数据集:1)仅在生成的数据集上,和2)在包含真实训练集和生成集的合并数据集上。在这两种情况下,使用AttrPrompt生成的数据集明显优于使用SimPrompt生成的数据集。此外,还展示了AttrPrompt在数据/预算效率和与不同模型大小/各种LLM作为训练数据生成器方法的兼容性方面优于SimPrompt的优势。


提出一种使用多样化属性提示的数据生成方法,可以生成具有多样性和属性的训练数据,从而提高了模型的性能和数据生成的效率。

https://arxiv.org/abs/2306.15895 


图片
图片
图片