kNNSampler: Stochastic Imputations for Recovering Missing Value Distributions

2025年09月10日
  • 简介
    我们研究了一种缺失值填补方法,称为 kNNSampler。该方法通过在观测到的协变量中寻找与目标单元最相似的 $k$ 个单元,并从它们的观测响应中随机抽样,从而填补目标单元缺失的响应值。这种方法能够从缺失值的分布中抽样未知的缺失值,量化缺失值的不确定性,并且可以方便地用于多重填补。与流行的 kNNImputer 不同,后者估计的是在给定观测协变量下缺失响应的条件均值,而 kNNSampler 从理论上被证明可以估计在给定观测协变量下缺失响应的条件分布。实验表明,该方法在恢复缺失值分布方面表现出色。kNNSampler 的代码已公开提供(https://github.com/SAP/knn-sampler)。
  • 作者讲解
  • 图表
  • 解决问题
    这篇论文旨在解决缺失值填补的问题,特别是如何有效地从缺失值的分布中进行采样并量化其不确定性。这是一个在数据预处理和统计分析中长期存在的问题,尤其在需要进行多轮插补的情况下更具挑战性。
  • 关键思路
    论文提出了一种新的缺失值填补方法——kNNSampler。与传统的kNNImputer通过估计条件均值来填补缺失值不同,kNNSampler通过从最相似的k个样本的观测响应中随机采样,从而估计缺失值的条件分布。这一思路使得填补结果能够反映原始数据中缺失值的真实分布特性,具有更强的概率解释性。
  • 其它亮点
    1. 提出了一种基于k近邻的概率性缺失值填补方法,适用于多轮插补。 2. 理论上证明了kNNSampler可以估计缺失值的条件分布,而非仅条件均值。 3. 实验验证了kNNSampler在恢复缺失值分布方面的有效性。 4. 代码已开源,便于复现和应用(https://github.com/SAP/knn-sampler)。 5. 适用于需要量化缺失值不确定性、并进行多轮插补的应用场景。
  • 相关研究
    1. kNNImputer: Missing Values Imputation Based on KNN. 2. Multiple Imputation Using Deep Denoising Autoencoders. 3. MissForest: Non-parametric Missing Value Imputation for Mixed-type Data. 4. MICE: Multivariate Imputation by Chained Equations. 5. VAE-based Imputation for Handling Missing Data in High-Dimensional Settings.
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问