- 简介在数据挖掘和机器学习领域,常用的分类模型无法有效地学习不平衡的数据。为了在模型训练之前平衡数据分布,通常会使用过采样方法为少数类生成数据,以解决分类不平衡数据的问题。大多数经典的过采样方法都是基于SMOTE技术,该技术只关注数据的局部信息,因此生成的数据可能存在不够真实的问题。在当前基于生成网络的过采样方法中,基于GAN的方法可以捕捉数据的真实分布,但在训练过程中存在模式崩溃和训练不稳定的问题;在基于去噪扩散概率模型的过采样方法中,使用U-Net的反向扩散过程的神经网络不适用于表格数据,虽然MLP可以用来替换U-Net,但由于结构简单和去噪效果差的问题而存在问题。为了克服以上问题,我们提出了一种新的过采样方法SEMRes-DDPM。在SEMRes-DDPM的反向扩散过程中,使用了一种新的神经网络结构SEMST-ResNet,该结构适用于表格数据,并具有良好的去噪效果,可以生成更高质量的表格数据。实验表明,SEMResNet网络的去噪效果比MLP更好;SEMRes-DDPM生成的数据分布比TabDDPM with CWGAN-GP更接近真实数据分布;在20个真实的不平衡表格数据集上,使用9个分类模型,SEMRes-DDPM在三个评估指标(F1、G-mean、AUC)上提高了生成表格数据的质量,并具有比其他SOTA过采样方法更好的分类性能。
- 图表
- 解决问题解决分类不平衡数据的问题,提高分类模型的性能。
- 关键思路提出一种新的过采样方法 SEMRes-DDPM,使用 SEMST-ResNet 网络结构进行反向扩散过程,生成更真实、更高质量的表格数据。
- 其它亮点实验结果表明,SEMRes-DDPM 在 F1、G-mean、AUC 三个评估指标上均优于其他 SOTA 过采样方法,且提高了分类模型的性能。
- 相关研究包括基于 SMOTE 的经典过采样方法、基于 GAN 和 denoising diffusion probability models 的过采样方法等。
沙发等你来抢
去评论
评论
沙发等你来抢