DataDream: Few-shot Guided Dataset Generation

2024年07月15日
  • 简介
    虽然文本到图像扩散模型已被证明在图像合成方面取得了最先进的结果,但它们尚未证明在下游应用中的有效性。以往的研究提出了在有限的真实数据访问情况下生成图像分类器训练数据的方法。然而,这些方法难以生成符合分布的图像或描绘细粒度特征,从而阻碍了在合成数据集上训练的分类模型的泛化。我们提出了DataDream,这是一个框架,用于在少量目标类别的样本指导下合成更真实地代表真实数据分布的分类数据集。DataDream在生成训练数据之前,通过少量真实图像对图像生成模型的LoRA权重进行微调,然后使用适应后的模型生成训练数据。然后,我们使用合成数据微调LoRA权重来改善下游图像分类,以在各种数据集上超越以前的方法。我们通过广泛的实验证明了DataDream的有效性,在10个数据集中的7个数据集上使用少量样本数据超越了最先进的分类准确性,而在其他3个数据集上表现具有竞争力。此外,我们提供了有关各种因素(例如真实拍摄和生成图像的数量以及微调计算对模型性能的影响)的见解。代码可在https://github.com/ExplainableML/DataDream上获得。
  • 图表
  • 解决问题
    论文旨在解决使用少量真实数据生成分类器训练数据时,合成图像无法准确代表真实数据分布的问题,从而影响分类器的泛化能力。
  • 关键思路
    论文提出了DataDream框架,通过在少量真实图像的指导下微调图像生成模型的LoRA权重,生成更准确地代表真实数据分布的合成数据,并使用这些数据微调CLIP的LoRA权重,从而提高图像分类的准确性。
  • 其它亮点
    论文通过实验验证了DataDream框架的有效性,相比之前的方法,在7个数据集上取得了最先进的分类准确性,同时在其他3个数据集上也有竞争力。论文还提供了一些有关实验设计、数据集和代码的信息,以及一些值得深入研究的工作。
  • 相关研究
    在这个领域中,最近的相关研究包括:Few-shot Learning with Contrastive Pseudo-Label,Few-shot Learning with Meta Metric Learning,Few-shot Learning with Graph Neural Networks等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论