Synthetic Face Datasets Generation via Latent Space Exploration from Brownian Identity Diffusion

简介

人脸识别（FR）模型是在大规模数据集上进行训练的，这引发了隐私和伦理方面的担忧。最近，提出了使用合成数据来补充或替代真实数据来训练FR模型的方法。虽然取得了有希望的结果，但生成模型是否能够产生足够多样化的数据仍然不清楚。在这项工作中，我们引入了一种新方法，受到软粒子在随机布朗力作用下的物理运动的启发，使我们能够在潜在空间中对身份分布进行采样，以满足各种约束条件。有了这个方法，我们生成了几个人脸数据集，并通过训练FR模型进行基准测试，结果显示，使用我们的方法生成的数据超过了以前基于GAN的数据集的性能，并且达到了与最先进的基于扩散的合成数据集的竞争性能。我们还展示了这种方法可以用来减轻生成器的训练集泄漏，并探索生成模型生成超越训练集的数据的能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在探讨使用合成数据来训练人脸识别模型的可行性和效果，并解决由于隐私和伦理问题而无法使用真实数据的困境。
关键思路

论文提出了一种新的方法，通过模拟软粒子受到随机布朗力的物理运动，从潜在空间中采样身份分布，并生成多样性数据集。使用这种方法生成的数据集在人脸识别模型的性能上超过了以前基于GAN的数据集，并达到了与最先进的扩散式合成数据集竞争的水平。
其它亮点

论文的实验设计充分，使用了多个数据集进行评估，并开源了代码。此外，该方法还可以用于减轻生成器训练集的泄漏，并探索生成模型生成超出训练集的数据的能力。
相关研究

最近的相关研究包括使用GAN生成合成数据的工作，以及使用扩散过程生成数据的工作，如StyleGAN和Diffusion Models。

Synthetic Face Datasets Generation via Latent Space Exploration from Brownian Identity Diffusion

提问交流

提问交流