- 简介Tabular data在各个领域中扮演着至关重要的角色,但通常会遭受缺失值的困扰,从而限制了其潜在的实用性。传统的填充技术经常产生次优结果并施加重要的计算负担,导致后续建模任务的不准确性。为了解决这些挑战,我们提出了DiffImpute,一种新颖的去噪扩散概率模型(DDPM)。具体而言,DiffImpute是在完整的表格数据集上进行训练的,确保它可以对缺失条目产生可信的填充,而不会破坏现有数据的真实性。创新地,它可以应用于各种Missing Completely At Random(MCAR)和Missing At Random(MAR)的设置。为了有效地处理DDPM中的表格特征,我们量身定制了四个表格去噪网络,涵盖了MLP、ResNet、Transformer和U-Net。我们还提出了Harmonization来增强观察数据和填充数据之间的一致性,通过在采样阶段将数据注入并进行多次去噪。为了在保持填充性能的同时实现有效的推理,我们提出了一种精细的非马尔可夫采样过程,与Harmonization一起工作。对七个不同数据集的实证评估突显了DiffImpute的实力。具体而言,当与Transformer作为去噪网络配对时,它始终优于竞争对手,排名平均为1.7,标准差最小。相比之下,排名第二的方法落后于2.8,标准差为0.9。代码可在https://github.com/Dendiiiii/DiffImpute上获得。
- 图表
- 解决问题解决问题:论文试图解决缺失值问题,提出一种新的、高效的、准确的数据填充方法。
- 关键思路关键思路:论文提出了一种基于Denoising Diffusion Probabilistic Model (DDPM)的数据填充方法,通过训练完整的表格数据,可以在不破坏原有数据真实性的前提下,填充缺失值。
- 其它亮点其他亮点:论文使用四种不同的表格去噪网络,包括MLP、ResNet、Transformer和U-Net,并提出了Harmonization方法来提高填充数据的一致性。实验结果表明,该方法在七个数据集上表现出色,且开源代码已经公开。
- 相关研究:在此领域的相关研究包括基于深度学习的数据填充方法,如GAIN、MIDAS和MIDA等。
沙发等你来抢
去评论
评论
沙发等你来抢